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内 容 简 介 


Impala 是 Cloudera 公司 主导 开发 的 新 型 查询 系统 , 它 提供 SQL 语义 , 能 查询 存储 在 Hadoop 的 HDFS 和 
HBase 中 的 PB 级 大 数据 。Impala 1.0 版 比 原来 基于 MapReduce 的 Hive SQL 查询 速度 提升 3 一 90 倍 ， 因 此 ， 
Impala 有 可 能 完全 取代 Hive。 作 者 基于 自己 在 本 职工 作 中 应 用 Impala 的 实践 和 心得 编写 了 本 书 。 

本 书 共 分 10 章 ， 全 面 介 绍 开源 大 数据 分 析 引 擎 Impala 的 技术 背景 、 安 装 与 配置 、 架 构 、 操 作 方法 、 性 
能 优化 ， 以 及 最 富 技术 含量 的 应 用 设计 原则 和 应 用 案例 。 

本 书 紧 扣 目前 计算 技术 发 展 热点 ， 适 合 所 有 大 数据 分 析 人 员 、 大 数据 开发 人 员 和 大 数据 管理 人 员 参 考 使 
用 。 


本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 ， 无 标签 者 不 得 销售 
版 权 所 有 ， 侵 权 必 究 。 侵 权 举 报 电话 : 010-62782989 13701121933 


图 书 在 版 编目 (CIP) 数据 


开源 大 数据 分 析 引 擎 Impala 实战 / 页 传 青 著 .- 北 京 : 清华 大 学 出 版 社 ，2015 
ISBN 978-7-302-39002-2 


I. @ 开 … II. @ 贾 … IIL @ 关 系数 据 库 系统 IV. DTP311.138 


中 国 版 本 图 书馆 CIP 数据 核 字 (2015) 第 005181 号 


责任 编辑 : 夏 非 彼 
封面 设计 : 王 翔 
责任 校对 : 闫 秀 华 
责任 印 制 : 


出 版 发 行 : 清华 大 学 出 版 社 
网 址 : http://www.tup.com.cn，http://www.wqbook.com 
地  ” 址 : 北京 清华 大 学 学 研 大 厦 A 座 邮 ” 编 : 100084 
社 总 机 : 010-62770175 邮  ” 购 : 010-62786544 
投稿 与 读者 服务 : 010-62776969，c-service@tup.tsinghua.edu.cn 
质量 反馈 : 010-62772015，zhiliang@tup.tsinghua.edu.cn 


印刷 者 : 

装 订 者 : 

经 销 : 全 国 新 华 书店 

开 ”本 : 190mmx260mm 印 张 : 21.75 字 数 : 557 千 字 

版 ”次 : 2015 年 3 月 第 1 版 印 次 : 2015 年 3 月 第 1 次 印刷 
印 ” 数 : 1~3000 

定 价 : 59.00 元 


产品 编号 : 057645-01 


Cloudera 官方 推荐 序 ( 中 文 ) 


大 数据 ， 作 为 目前 工业 界 的 主要 技术 趋势 ， 定 位 于 转化 工业 界 的 每 一 个 细 分 市 场 ， 推 动 
企业 运用 其 数据 开展 业务 的 革命 , 并 从 根本 上 改变 了 支撑 现代 社会 的 IT 基础 架构 。 毫 无 疑问 ， 
大 数据 对 中 国 意义 重大 ， 它 给 中 国 IT 业 的 创新 带 来 了 巨大 机 会 ， 没 有 其 他 任何 一 个 国家 比 中 
国有 更 多 的 人 口 、 更 多 的 设备 和 更 多 的 数据 。 

目前 Hadoop 是 用 于 大 数据 的 优选 平台 解决 方案 。 作 为 Hadoop 技术 以 及 提供 Hadoop 解 
决 方案 的 领导 者 ，Cloudera 不 仅 提 供 经 过 了 业界 验证 的 Hadoop 平台 解决 方案 ， 也 提供 功能 
强大 的 工具 帮助 企业 用 户 充分 利用 Cloudera 企业 版 Hadoop 解决 他 们 的 业务 问题 。Impala 就 
是 Cloudera 开发 的 众多 强大 工具 之 一 。 

Impala 是 为 了 在 Hadoop 上 实现 低 延 迟 的 SQL 查询 而 设计 开发 的 ， 它 原生 地 运行 在 
Hadoop/HBase 存储 系统 和 元 数据 之 上 ， 因 此 它 继承 了 Hadoop 的 灵活 性 、 伸 缩 性 和 经 济 性 ， 
具有 分 布 式 本 地 化 处 理 的 特性 以 避免 网 络 瓶颈 ， 它 与 现 有 Hadoop/CDH 的 、 基 于 工业 标准 的 
SQL 接口 兼容 。 它 支持 交互 式 SQL， 比 最 新 版 本 的 Hive 快 很 多 倍 。 由 于 Impala 的 这 些 优势 ， 
它 受到 了 全 球 企业 用 户 的 热烈 欢迎 。 

看 到 将 为 中 国 读者 发 布 的 这 一 本 中 文 版 Impala 书籍 ， 我 非常 欣喜 ， 这 无 疑 对 中 国 用 户 更 
好 地 使 用 Hadoop， 解 决 他 们 的 业务 问题 有 很 大 帮助 。 因 此 ， 我 要 感谢 所 有 为 发 布 本 书 做 出 页 
献 的 人 们 。 最 后 ， 也 要 感谢 广大 读者 对 Impala 的 喜爱 ， 以 及 你 们 在 大 数据 一 一 这 一 令 人 激动 
的 IT 发 展 方向 上 所 做 的 贡献 ! 


苗 凯 翔 ”博士 
Cloudera 副 总 裁 


Cloudera 官方 推荐 序 ( 英文 ) 


Big Data, as the next major trend in the industry today, is set to transform every market 
Segment in the industry, revolutionize how enterprises will do their businesses using their data, and 
fundamentally shift the IT infrastructure underlying modern society. No doubt Big Data is of great 
significance to China and it presents excellent opportunities to the IT industry in China for new 
innovations - no other country has more people, more devices, and more data than in China. 

Hadoop is a platform solution of choice today for Big Data. As a leader of Hadoop and 
Hadoop-based solutions, Cloudera offers not only solid industry-proven Hadoop platform solutions, 
but also powerful tools to help enterprise users to fully leverage the Cloudera Enterprise Hadoop to 
solve their business problems. Impala is such a powerful tool, among many others created by 
Cloudera. 

Impala is purpose-built for low-latency SQL queries on Hadoop, operating natively on 
Hadoop/HBase storage and metadata. As such it inherited the flexibility, scale, and cost advantages 
of Hadoop, and features distributed local processing to avoid network bottlenecks, and is 
compatible with SQL interface for existing Hadoop/CDH application based on industry standard 
SQL. It supports Interactive SQL which is typically many times faster than the latest Hive. Because 
of these advantages Impala has, it has become hugely popular among many enterprise users 
worldwide. 

Now, I am very glad to see that a book focusing on Impala will be available in Chinese for the 
readers in China, which will definitely have a positive impact in helping users in China in better 
utilizing Hadoop and in solving the business problems they have. For this reason, I would like to 
thank all who have made contributions in making this book available in local language in China. 
Finally, I would like to thank the reader for your interest in Impala and for your contributions in this 


exciting direction of IT which we call Big Data! 


Kai X. Miao( 苗 凯 翔 )，Ph.D 


Vice President, Cloudera Corporation 


推荐 序 二 


Impala 是 Hadoop 生态 圈 中 不 可 或 缺 的 一 个 环节 , 它 提 供 SQL 语义 ,能 够 对 HDFS 和 HBase 
中 的 PB 级 大 数据 进行 交互 式 实 时 查询 ， 从 而 弥补 了 Hive 批 处 理 的 不 足 。 本 书 是 国内 第 一 本 
Impala 专业 书籍 ， 相 信 对 您 有 益 。 


刘 鹏 
中 国 云 计算 专家 咨询 委员 会 副 主任 、 秘 书 长 
中 国信 息 协 会 大 数据 分 会 副 会 长 


推荐 序 三 


Impala 起 源 于 谷歌 的 Dremel 大 数据 快速 分 析 处 理 平台 论文 ， 由 著名 的 大 数据 公司 
Cloudera 开发 并 开源 ， 在 业内 的 知名 度 非常 高 ， 它 立足 于 内 存 计算 ， 从 多 迭代 实时 批量 处 理 
出 发 ， 兼 顾 数据 仓库 ， 是 大 数据 系统 领域 的 基于 内 存 和 SQL 的 快速 处 理 分 析 计 算 平台 。 

近 几 年 ， 大 数据 在 如 火 如 茶 地 发 展 着 ， 随 着 谷歌 开源 了 Dremel 的 论文 ， 基 于 内 存 的 计算 
分 析 技 术 逐 渐 走 入 大 众 的 视野 ， 谷 歌 为 大 家 展示 了 一 种 超越 MapReduce 的 数据 分 析 之 路 ，3 
秒 钟 分 析 一 个 PB 的 数据 已 经 不 再 遥 不 可 及 。 但 对 于 该 论文 的 源 代码 实现 容 容 可 数 , 在 这 有 限 
的 开源 代码 中 的 手 楚 者 当 属 Impala 和 Spark, 但 一 直 以 来 , 无 论 是 Impala 还 是 Spark， 国 内 相 
关 的 文档 和 讨论 都 不 甚 全面。 而 本 书 的 作者 贾 传 青 为 大 家 带 来 了 一 本 基于 他 多 年 的 数据 库 和 
分 布 式 工作 的 经 验 ， 可 以 说 ， 这 是 Impala 在 目前 国内 最 全 面 、 最 完整 的 技术 讲解 书籍 。 

随 着 内 存 分 布 式 计算 技术 的 发 展 ， 目 前 国内 讨论 该 领域 的 社区 也 越 来 越 多 ,但 内 存 计算 
技术 也 存在 几 个 问题 ， 例 如 ，Apache 的 Drill 项 目 迟 迟 没有 开源 。Spark 对 于 普通 用 户 来 说 学 
习 成 本 太 高 。Impala 则 很 好 地 设计 了 一 个 相对 中 庸 的 方案 ， 在 兼顾 计算 速度 的 同时 ， 也 照顾 
原 有 的 SQL 分 析 师 和 Hive 的 用 户 们 。 对 于 用 户 的 快速 上 手 开启 大 数据 之 旅 十 分 方便 快捷 且 
简单 实用 。 可 以 说 ，Impala 基于 HDFS、SQL 和 Hive, 却 又 超越 了 SQL、MapReduce 和 Hive。 
而 它 与 经 由 传统 数据 库 改 造 而 来 的 分 布 式 数据 库 如 Greenplum 等 又 有 极 大 的 差别 。 

这 是 国内 第 一 本 全 面 讲解 Impala 的 书籍 ， 既 可 以 作为 想 快 速 搭建 基于 Hadoop 的 数据 仓 
库 的 原 数据 库 爱 好 者 们 的 优秀 参考 书籍 ， 又 可 以 成 为 对 Spark 感 兴趣 的 用 户 的 架构 理解 入 门 
书籍 ,因为 这 两 种 技术 虽 殊 途 但 同 源 , Spark 虽 效 率 更 好 , 但 架构 更 为 复杂 , 开发 难度 也 更 高 ; 
而 Impala 恰恰 为 用 户 在 复杂 和 简单 之 间 兼 顾 了 平衡 。Impala 在 国内 的 深入 介绍 和 讨论 的 材料 
并 不 多 ， 所 以 ， 作 为 第 一 本 全 面 介 绍 Impala 的 书籍 ， 其 编写 难度 也 是 可 想 而 知 的 。 

非常 荣幸 能 够 为 传 青 的 这 本 书籍 做 序 ， 同 时 也 感谢 他 让 我 看 到 了 Impala 非常 有 特色 的 另 
一 面 。 他 是 我 认识 的 国内 为 数 不 多 的 研究 Impala 方面 的 专家 ， 具 有 多 年 的 数据 库 管理 与 开发 
经 验 ， 同 时 最 近 几 年 也 在 一 直 研 究 分 布 式 和 实时 计算 相关 的 最 前 沿 技 术 ， 可 以 说 ， 这 本 书 既 
是 他 历史 经 验 的 总 结 ， 又 是 对 他 自己 的 一 个 新 突破 。 

再 次 感谢 传 青 邀 请 我 为 他 的 新 书 做 序 , 在 大 数据 的 道路 上 , 愿 我 们 和 读者 们 一 起 加 油 , 向 前 。 


向 和 磊 
EasyHadoop 与 phpHiveAdmin 作者 
EasyHadoop 社区 创始 人 ，eXadoop 公司 创始 人 


推荐 序 四 


大 数据 应 用 的 日 渐 增 多 为 社会 生活 中 的 许多 领域 带 来 了 积极 变化 。 基 于 Hadoop 的 离线 计 
算 提供 了 强大 的 数据 处 理 能 力 ， 但 由 于 Hive 底层 执行 使 用 的 是 MapReduce 引擎 ， 仍 然 是 一 
个 批 处 理 过 程 ， 因 此 难以 满足 查询 的 交互 性 要 求 。 能 否 有 一 项 技术 兼顾 DBMS/Hadoop 的 混 
合 优势 呢 ? Cloudera 公司 主导 开发 的 Impala 应 运 而 生 。 有 测试 表明 ，Impala 的 性 能 较 Hive 
提高 了 3~90 倍 。 

本 书 是 国内 第 一 本 系统 介绍 Impala 技术 细节 的 书籍 ， 对 Impala 的 概念 架构 、SQL、 资 源 
管理 、 存储 、 分 区 进行 了 详细 介绍 作者 结合 自身 多 年 的 Oracle 和 大 数据 研发 经 验 , 对 Impala 
性 能 优化 提出 了 自己 的 见解 : 通过 数据 对 比 可 以 看 到 良好 的 设计 ， 以 使 计算 性 能 有 巨大 提升 。 
文章 的 最 后 ， 还 根据 设计 原则 给 出 了 应 用 的 具体 案例 。 

作者 页 传 青 执着 于 技术 并 乐于 分 享 ， 他 一 直 想 写 一 本 看 着 舒服 的 技术 书籍 。 希 望 本 书 能 
够 为 有 兴趣 研究 Impala 的 专业 人 员 或 学 习 者 有 所 帮助 。 


郭 刚 
慧聪 网 CTO 


推荐 序 五 


当下 各 类 大 数据 技术 的 涌现 已 经 成 为 了 创新 的 源泉 ， 让 更 多 的 想象 成 为 可 能 。 新 一 代 开 
源 大 数据 分 析 引 擎 Impala 作为 Cloudera 在 Hadoop 领域 的 重要 成 员 ， 其 开源 生态 圈 正 在 快速 
成 长 ， 技 术 应 用 前 景 广阔 。 贾 先生 与 我 在 多 个 大 数据 技术 领域 有 过 深入 交流 ， 贾 先生 深厚 的 
技术 功底 和 严谨 的 钻研 精神 给 我 留 下 了 深刻 印象 。 非 常 高 兴 能 看 见 贾 先生 的 新 车 ， 这 是 我 截 
至 目前 看 到 的 第 一 本 阐述 Impala 技术 和 应 用 最 体系 化 的 中 文书 籍 。 不 要 沉浸 于 讨论 多 大 规模 
的 数据 才 是 “大 数据 ”本 书 将 带领 读者 快速 地 掌握 这 个 技术 ， 打 开 大 数据 时 代 的 窗户 。 大 数 
据 时 代 已 经 来 临 ， 先 知 先觉 、 先 行 先 试 者 将 先 受益 。 


庄 伟 波 
中 信 证 券 


推荐 序 六 


名 人 从 事 电信 行业 数据 库 维护 多 年 ， 和 黄 先生 是 多 年 的 工作 伙伴 ,很 钦佩 黄 先 生 的 才华 ， 
也 很 高 兴 他 的 新 书 能 够 出 版 ,骂人 于 1999 年 进入 电信 行业 工作 , 从 事 信息 化 系统 的 维护 工作 ， 
主管 过 本 企业 全 省 的 核心 营业 、 计 费 账 务 、 经 营 分 析 等 系统 。 拥 有 多 年 的 Oracle 数据 库 维护 
经 验 ， 是 国内 最 早 的 OCM 之 一 。 

电信 行业 通过 网 格 营 销 、 市 场 监 控 、 经 营 决策 等 提升 用 户 体验 ， 保 有 市 场 份额 。 而 同时 
针对 海量 数据 的 分 析 ， 时 效 性 又 成 为 不 容 忽视 的 问题 。 天 下 武 学 ， 唯 快 不 破 ， 窃 以 为 IT 系统 
亦 是 如 此 。 本 书 详细 讲解 了 Hadoop 生态 系统 中 的 实时 分 析 引 擎 Impala, 相信 能 帮助 每 位 读者 
快速 掌握 这 一 技术 。 


郭 瑜 敏 
山西 联通 
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我 的 博士 研究 方向 是 在 可 持续 发 展 和 网 络 组 织 背景 下 运用 量化 评价 和 数据 分 析 方 法 建立 
区 域 经 济 发 展 模型 。 期 间 我 沉淀 了 很 多 当今 “大 数据 ”分 析 过 程 中 经 常用 到 的 数据 分 析 和 挖 
据 技 能 。 近 几 年 我 负责 了 邮政 业务 量 收 数据 仓库 管理 系统 的 建设 工作 。 如 何 发 挥 数 据 仓库 的 
存储 和 运算 效率 、 持 续 提 升 技 术 投 入 成 本 的 效益 一 直 是 我 比较 关注 的 问题 。 

Impala 作为 基于 Hadoop 的 实时 计算 技术 可 以 直接 通过 BI 产品 进行 展现 ， 进 行 数据 的 查 
询 和 展示 。 在 商业 领域 ， 如 何 发 挥 “ 大 数据 ”的 商业 价值 ， 帮 助 企业 形成 核心 能 力 还 没有 形 
成 一 个 成 熟 的 框架 模式 。 一 些 运用 “大 数据 ”技术 的 先行 者 们 开展 了 积极 的 尝试 ， 传 青 就 是 
其 中 的 一 位 专家 。 他 的 努力 态度 ， 所 取得 的 成 果 和 工作 精神 值得 敬佩 。 


刁 晓 纯 博士 
中 国 邮 政 
《实用 数据 分 析 》 译 者 


作者 序 


写作 背景 


作为 曾经 的 传统 关系 型 数据 库 从 业者 ， 我 们 不 仅 需要 了 解数 据 库 本 身 ， 还 需要 了 解 运行 
数据 库 的 主机 ， 存 储 数 据 库 数据 的 仓库 ， 读 取 数 据 库 数据 的 中 间 件 以 及 应 用 本 身 的 特点 。 随 
着 硬件 的 发 展 以 及 数据 处 理 的 细 化 ， 数 据 库 技术 从 传统 的 基于 磁盘 的 关系 型 数据 库 ， 向 内 存 
数据 库 、MPP 数据 库 不 同 的 方向 演进 ， 数 据 库 产品 也 从 高 大 全 向 单一 RDBMS 吃 遍 天 、 短 小 
精 悍 的 方向 发 展 。 在 架构 时 ， 我 们 必须 根据 应 用 的 特点 选择 合适 的 数据 库 产品 。 

自 2009 年 开始 ， 笔 者 开始 尝试 使 用 基于 Hadoop 的 技术 来 解决 传统 数据 库 无 法 线性 扩展 
的 问题 。Hadoop 不 能 称 之 为 “数据 库 ” 也 不 能 简单 地 称 之 为 “应 用 ”而 是 介 于 数据 库 和 应 
用 之 间 的 一 种 既 能 用 于 存储 和 处 理 数据 ， 又 能 处 理应 用 业务 逻辑 的 一 个 混合 体 ， 我 们 通常 称 
之 为 “数据 平台 ”Hadoop 虽 在 本 质 上 解决 了 磁盘 IO 的 扩展 问题 , 但 同时 由 于 其 基于 磁盘 ( 自 
Hadoop 2.3 起 支持 缓存 特性 )， 因 此 对 于 某 些 实时 性 要 求 更 高 的 任务 无 能 为 力 ，Impala 及 其 他 
的 基于 内 存 的 运算 技术 应 运 而 生 。 

Impala 的 存储 基于 HDFS， 运 算 基于 表 的 统计 信息 生成 执行 计划 ， 具 备 资源 管理 功能 ， 
是 最 像 传统 数据 库 的 大 数据 技术 。 笔 者 着 手写 作 本 书 时 Impala 的 最 新 版 本 为 1.3.1， 而 目前 已 
演进 至 2.1 版 本 ， 在 SQL 语法 、 安 装 、 扩 展 性 及 性 能 方面 进一步 增强 。 


主要 内 容 


工 和 欲 善 其 事 ， 必 先 利 其 器 ， 第 1 章 手 把 手 地 为 大 家 介绍 如 何 离线 搭建 一 个 Impala 环境 。 
有 了 一 个 环境 之 后 ,我 们 可 以 暂时 不 考虑 细节 , 先 尝 尝鲜 使 用 一 下 它 。 第 2 章 介绍 如 何在 Impala 
上 进行 简单 的 数据 加 载 、 建 表 、 查 询 等 操作 。 作 为 Impala 的 管理 者 ， 仅 仅 能 够 简单 使 用 它 是 
远 远 不 够 的 。 第 3 章 系统 地 介绍 Impala 的 架构 体系 及 各 组 件 的 作用 。 第 4 章 是 为 Impala 的 使 
用 者 量 身 定做 的 ， 花 费 比 较 大 的 篇 幅 介 绍 了 Impala SQL、 函 数 、UDF 等 。 任 何 一 款 数据 库 都 
会 提供 一 个 命令 行 工 具 ， 方 便 在 没有 图 形 界面 的 情况 下 ， 或 者 在 Shell 中 进行 调用 ，Impala 
也 不 例外 ,第 5 章 介 绍 Impala 的 命令 行 工 具 Impala-shell。 那 如 何 有 效 地 避免 硬件 资源 的 过 载 
使 用 呢 ? 当然 是 通过 资源 管理 ， 第 6 章 将 详细 介绍 Impala 的 资源 管理 机 制 ， 另 外 也 可 以 将 
Impala 使 用 YARN 来 进行 管理 。 第 7 章 详细 介绍 了 Impala 底层 支持 的 文件 类 型 ， 基 本 襄 括 了 
Hadoop 主流 的 文件 类 型 。 第 8 章 介绍 了 Impala 的 分 区 机 制 。 第 9 章 介 绍 了 Impala 性 能 优化 
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的 指导 原则 ， 以 及 优化 过 程 中 使 用 到 的 各 项 技术 。 第 10 章 介绍 了 在 企业 应 用 中 使 用 Impala 
时 的 设计 原则 及 应 用 案例 。 
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第 1 章 
<Impqala 概 述 、 受 装 与 配置 > 


Impala 是 Cloudera 公司 发 布 的 实时 查询 开源 项 目 ， 从 1.0 版 本 开始 ， 宣 称 比 原来 基于 
MapReduce 的 Hive SQL 查询 速度 提升 3 一 90 倍 ， 而 且 更 加 灵活 易 用 。 它 提供 SQL 语义 ,能 查询 
存储 在 Hadoop 的 HDFS 和 HBase 中 的 PB 级 大 数据 。 已 有 的 Hive 系统 虽然 也 提供 了 SQL 语义 ， 
但 由 于 Hive 底层 执行 使 用 的 是 MapReduce 引擎 ,仍然 是 一 个 批 处 理 过 程 , 难以 满足 查询 的 交互 性 。 
相 比 之 下 ，Impala 的 最 大 特点 也 是 最 大 卖点 就 是 它 的 快速 。Impala 是 高 角 羚 的 意思 ， 这 种 羚羊 主 
要 分 布 在 东非 。 


Impala 概述 


Hadoop 的 第 勃发 展 得 益 于 Google 发 表 的 关于 GFS 和 MapReduce 的 论文 .HDFS 和 MapReduce 
都 依据 Google 的 论文 为 原型 进行 开发 ，HDFS 解决 了 分 布 式 存 储 的 问题 , MapReduce 解决 了 分 布 
式 运算 的 问题 。 

使 用 者 要 很 好 地 使 用 Hadoop， 和 需要 能 够 熟练 地 使 用 Java 或 者 其 他 语言 编写 MapReduce 程序 ， 这 
成 为 了 传统 数据 库 用 户 的 瓶颈 。 为 了 解决 这 个 问题 ，Hive 应 运 而 生 ， 通 过 Hive 我 们 使 用 类 似 SQL 
(HiveQL) 的 语句 启动 一 个 任务 ， 由 Hive 将 其 翻译 成 一 个 MapReduce 任务 进行 执行 。 这 样 大 大 降低 
了 Hadoop 的 使 用 门槛 。 

MapReduce 非常 适合 用 于 批 处 理 操作 ， 对 实时 查询 却 无 能 为 力 。 为 了 解决 查询 速度 的 问题 ， 
Cloudera 依据 Google 的 Dremel 为 原型 开发 了 跨 时 代 的 查询 引擎 : Impala。 它 抛弃 了 MapReduce， 
使 用 更 类 似 于 传统 的 MPP 数据 库 技术 ， 大 大 提高 了 查询 的 速度 。 

Cloudera 公司 网 址 如 下 ， 读 者 可 以 在 这 个 网 站 上 查阅 到 Impala 应 用 的 相关 信息 。 


http://www.cloudera.com/ 
Impala 是 一 个 开源 的 ， 能 够 进行 快速 查询 的 Clouera 核心 组 件 。 本 章 我 们 将 详细 介绍 Impala 
的 安装 过 程 。 要 安装 Impala 可 以 通过 两 个 途径 : 
e@ 第 一 种 方式 使 用 Cloudera Manager 进行 安装 。 这 是 Cloudera 推荐 的 安装 方式 . 在 Cloudera 
Manager 4.8 或 者 之 后 的 版 本 都 可 以 对 Impala ( 1.2.1 或 者 更 高 的 版 本 ) 进行 安装 、 配 置 、 
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管理 、 监 控 等 操作 。 
日 第 二 种 方式 不 使 用 Cloudera Manager 手动 安装 。 我 们 必须 使 用 额外 的 检查 步骤 来 确认 
Impala 可 以 与 其 他 Hadoop 组 件 正确 的 交互 ， 以 及 Impala 集群 本 身 的 配置 。 


下 面 我 们 将 使 用 第 一 种 方式 介绍 Impala 的 安装 ， 安 装 过 程 共 分 为 4 个 部 分 ， 分 别 是 Cloudera 
Manager 安装 准备 ，Cloudera Manager 及 CDH 安装 ，Hive 安装 和 Impala 安装 。 


1 .2 Cloudera Manager 安装 准备 


本 书 中 演示 示例 使 用 的 Cloudera Manager〔 以 下 简称 为 CM) 的 版 本 为 5.0.2，CDH 的 版 本 也 
是 5.0.2，Impala 使 用 CDH 版 本 对 应 的 1.3.1， 如 下 图 所 示 。 


Cloudera Impala Version and Download Information 
You can download the following releases of the Cloudera Impala product: 


"Impala 2.0.0 (latest 2.0.x, for CDH 4 or CDH 5) 

* Impala 1,4,0 (latest 1.4.x, for CDH 4 or CDH 5) 

* Impala 1.3.1 (latest 1.3.x, for CDH 4 or CDH 5) 

* Impala 1,2.4 (latest 1.2.x, for CDH 4) 

* Impala 1.2.3 (for CDH 4; also bundled with CDH 5 beta 2) 
* Impala 1.2.2 

* Impala 1.2.1 

* Impala 1.2.0 (Beta) (for use with CDH 5 beta 1) 

* Impala 1.1.1 (latest 1.1.x) 

* Impala 1.0.1 (latest 1.0.x) 


For installation instructions, see Installing Impala (CDH 4 only) . 


介质 下 载 地 址 : 


需要 将 这 两 个 url 中 的 mirrors 和 repodata 外 的 所 有 文件 夹 、 子 文件 夹 、 文件 全 部 下 载 到 本 地 。 
介质 需 放 在 HTTP 服务 器 root 目录 之 下 。 
CM 5.0.2 安装 下 载 的 内 容 主 要 是 RPMS/x86_64 目录 下 的 所 有 文件 ， 如 下 图 所 示 。 
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Index of /cm$/redhat/6/x86_64/cm/5.0.2/RPMS/x86_64 


Name Last modified Size Description 


eB Parent Directory - 
加 Cloudera-manaper-agent-5.0.2-1 cm502 p0.297 .el6 x86 641pm 2014-06-11 18:09 3.7M 
laemons-5.0.3-1 cm502 .p0.297.cl6. x86 641mm 2014-06-11 18:09 315M 
加 Cloudera-manager-server-5.0.2-1.cm502.p0.297 .el6.x86 64Ipm 2014-06-11 18:09 8.0K 
:5.023-1 cm502 p0297 el6 x86 64 1pm 2014-06-11 18:09 9.6K 


国 dloudera-mana 


国 loudera-manager-server-db 


El enterprise-debuginfo-5.0.2-1.cm502.p0.297.el6.x86 64.mpm 2014-06-11 18:09 669K 
Ee dk-6u31-linux-amd64 .pm 2014-06-11 18:09 68M 
国 oracle-j2sdk1.7-1.7.0+update45-1.x86 64Ipm 2014-06-11 18:09 131M 
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CDH5.0.2 安装 下 载 的 内 容 如 下 图 所 示 。 
Index of /cdhS/parcels/S.0.2 


Name Last modified Size Description 
4 Parent Directory - 
5. cdh5.0.2.p0.13-el5.parcel 2014-06-11 17:58 1.7G 
-cdh5.0.2.p0.13-el5.parcelshal 2014-09-15 18:49 104 
2-1.cdh5.0.2.p0.13-el6.parcel 2014-06-11 17:56 1.7G 


国 CDH-5.0.2-1.cdh5.0.2.p0.13-el6.parcelshal 2014-09-15 18:48 104 
国 CDH-5.0.2-1.cdh5.0.2.p0.13-precise. parcel 。 2014-06-11 17:56 1.8G 
国 CDEHL5 0.2-1.cdh5 0.2 p0 13-precise parcel shal 2014-09-15 18:48 108 
国 CDHL5 02-1cdh5 .0.2 p0 13-sles11 parcel 2014-06-11 17:57 17G 
加 CDH-5.0.2-1.cdh5.0.2.p0.13-sles11.parcelshal 2014-09-15 18:49 107 
Ea| CDH-5.0.2-1.cdh5.0.2.p0.13-wheezy.parcel 2014-06-11 17:58 1.8G 
国 CDH-5.0.2-1.cdh5.0.2.p0.13-wheezy.parcel shal 2014-09-15 18:47 107 
国 manifestison 2014-06-11 17:59 32K 
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安装 CM 可 以 使 用 在 线 安装 和 离线 安装 的 方式 。 在 线 安装 方式 将 安装 包 下 载 到 本 地 再 
进行 安装 ， 所 以 对 网 络 的 带宽 要 求 较 高 。 而 一 般 的 企业 的 内 外 网 是 完全 隔离 的 ， 所 以 本 示例 中 我 
们 将 使 用 本 地 的 yum 源 对 CM 进行 安装 ， 这 种 方式 对 于 在 企业 中 部 署 更 为 实用 。 


1. 安装 环境 ( 如 下 表 所 示 ) 


主机 名 1P 角色 

hadoop-yum 192.168.0.10 yum 源 服务 器 

hadoop-cm0 192.168.0.150 CM 管理 服务 器 

hadoop-cml 192.168.0.151 主 节点 

hadoop-cm2 192.168.0.152 备用 主 节点 (本 节点 为 主 节点 高 可 
用 提供 ， 在 实验 中 可 以 不 安装 ) 

hadoop-csl 192.168.0.153 从 节点 

hadoop-cs2 192.168.0.154 从 节点 

hadoop-cs3 192.168.0.155 从 节点 
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2. CM 支持 的 操作 系统 ( 如 下 表 所 示 ) 


操作 系统 版 本 位 数 

兼容 Red Hat 

RHEL 了 64 
62 64 
64 64 

CentOS 3.7 64 
62 64 
64 64 

Oracle Unbreakable Linux 64 


5.6 
su 
SLES Linux Enterprise Server 64 


UbuntuDebian 
Ubuntu 64 
Debian Wheezy(7.0,7.1) 64 


在 本 示例 的 安装 演示 中 使 用 了 CentOS 6.4 版 本 。 


[root@hadoop-cm0 ~]# cat /etc/redhat-release 
CentOS release 6.4 


3. 支持 的 数据 库 

CM 的 元 数据 需要 存储 在 数据 库 中 ，CM 支持 MySQL、Postgresql、Oracle 等 数据 库 ， 另 外 不 
同 的 组 件 对 数据 库 的 要 求 也 不 同 ， 此 处 不 再 袭 述 。 

本 次 安装 使 用 自 带 的 Postgresql 数据 库 。 

4. 支持 的 JDK 版 本 

针对 本 次 使 用 的 CDH 版 本 ，JDK 的 版 本 要 求 在 1.7.0 .25 到 1.7.0 45 之 间 。 

本 次 安装 使 用 自 带 的 1.7.0_45。 

-bash-4.1$ java -version 

java version "1.7.0_45" 


Java(TM) SE Runtime Environment (build 1.7.0 45-b18) 
Java HotSpot (TM) 64-Bit Server WM (build 24.45-b08, mixed mode) 


a 
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5. 支持 的 IP 协 议 
CDH 只 支持 IPv4 协议 ， 不 支持 IPv6。 


执行 上 面 指令 ， 无 输出 为 可 行 。 
6. yum 源 配 置 


在 hadoop-cm0 上 启动 HTTP 服务 ， 这 里 ，CM 和 CDH 的 介质 需要 放 在 HTTP 服务 器 的 root 
目录 之 下 。 


Service httpd start 
在 浏览 器 地 址 栏 中 输入 http:/192.168.0.10。 
显示 如 下 欢迎 界面 ， 如 下 图 所 示 : 


需 [@ 192.168.0.10 v@| Mv coooe 曲 


Apache 2 Test Page 


poweredby CentOS 


This page is used to test the proper operation of the Apache HTTP server after it has been installed. If you can read 
this page it means that the Apache HTTP server installed at this site is working properly. 


If you are a member of the general public: If you are the website administrator: 

The fact that you are seeing this page indicates that You may now add content to the directory /var/www 

the website you just visited is either experiencing Vhtmt/. Note that until you do so, people visiting your 

problems or is undergoing routine maintenance. website will see this page and not your content. To 
prevent this page from ever being used, follow the 

If you would like to let the administrators of this instructions in the file /etc/httpd/cont.d/welcome. conf. 

website know that you've seen this page instead of 

the page you expected, you should send them e-mail. You are free to use the images below on Apache and 

In general, mail sent to the name "webmaster" and CentOs Linux powered HTTP servers. Thanks for using 

directed to the website's domain should reach the Apache and CentOS! 


appropriate person. 


For example, if you experienced problems while “ie PACmMAE 


visiting www.example.com, you should send e-mail to 
"webmaster@example.com". 


7. 对 RPM 文件 建立 索引 
分 别 对 CM 和 CDH 的 介质 所 在 目录 执行 createrepo。 
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创建 完毕 后 会 自动 在 相应 的 目录 之 下 创建 repodata 的 文件 夹 及 相应 的 文件 。 通 过 浏览 器 可 以 
访问 介质 ， 打 开 界 面 如 下 图 所 示 : 


和 [@ 192.168.0.10cm502/ ~v®| 
Index of /cm502 
Name Last modified Size Description 


4 Parent Directory - 
RPM-GPG-KEY-cloudera 09-Jul-2014 14:22 1.7K 
BREMS/ 09-Jul-2014 14:32 
国 repodata/ 09-Jul-2014 14:35 


Apache/2.2.15 (CentOS) Server at 192.168.0.10 Port 80 


和 [@ 192.168.0.10/parcels! vg] 


Index of /parcels 


国 5.02/ 28-Jun-2014 18:13 
repodata/ 28-Jun-2014 18:17 


Apache/2.2.15 (CentOS) Server at 192.168.0.10 Port 80 


创建 repo 文件 并 分 发 到 各 节点 的 /etc/yum.repo.d/ 下 : 


另外 ， 建 议 也 为 操作 系统 的 安装 介质 建立 一 个 本 地 yum 源 的 repo 文件 ， 因 为 CM 在 安装 过 
程 中 可 能 需要 某 些 操作 系统 默认 安装 没有 带 的 包 。 
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8. 关闭 SELinux 安全 选项 
修改 如 下 配置 文件 : 


值得 一 提 的 是 如 果 不 修改 配置 文件 只 使 用 setenforce 命令 即使 修改 正确 了 ,CM 仍然 认为 没有 
正确 配置 该 安全 选项 。 最 好 的 办 法 就 是 修改 配置 文件 并 重启 主机 。 


9. 关闭 防火 墙 
执行 如 下 命令 : 


关闭 所 有 节点 防火 墙 。 


10. 对 等 性 配置 


本 步骤 配置 ssh 免 密码 登录 。 
首先 配置 每 一 个 节点 的 hosts 文件 : 


在 每 一 个 节点 执行 : 


然后 将 本 节点 生成 的 公 钥 拷贝 至 其 他 节点 : 
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拷贝 过 程 中 需要 根据 提示 输入 root 密码 。 拷 贝 完成 后 ， 可 以 使 用 如 下 命令 来 测试 sh 免 密码 
登录 配置 是 否 成 功 : 


在 每 次 执行 该 命令 后 相当 于 登录 到 了 另外 一 个 节点 上 ， 需 要 执行 一 个 退出 动作 ， 再 进行 下 一 
个 节点 的 测试 。 


11. 配置 时 间 同 步 


一 般 在 企业 内 网 中 都 有 单独 的 NTP 时 间 同 步 服务 器 , 我 们 需要 做 的 就 是 修改 配置 文件 , 加 入 
企业 自己 的 时 间 同 步 服务 器 人 地址 (/etc/ntp.conf)。 
然后 启用 ntp 服务 : 


12. 配置 内 核 参 数 


(1) 参数 1: kernel.mm.redhat transparent_ hugepage.defrag 
该 参数 默认 值 为 always， 这 可 能 带 来 CPU 利用 率 过 高 的 问题 ， 需 将 其 设置 为 never。 


为 了 保证 重启 生效 ， 我 们 可 以 把 该 命令 写 到 rc.local 中 ， 保 证 每 次 开机 都 能 调用 。 


(2) 参数 2: vm.swappiness 
该 参数 默认 值 为 60， 这 里 将 其 设置 为 0， 让 操作 系统 尽 可 能 不 使 用 交换 分 区 ， 有 助 于 提高 集 
群 的 性 能 。 将 该 参数 写 入 配置 文件 sysctl.conf: 
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echo "vm.swappiness = 0" >> /etc/sysctl.conf 


运行 如 下 命令 使 修改 生效 : 
sysctl -p 
13. 配置 图 形 界面 


CM 安装 初始 阶段 需要 图 形 化 的 界面 环境 ,我 们 可 以 使 用 Xmanger 或 者 VNC。 本 示例 中 仅 在 
hadoop-cm0 上 启动 vncserver (vncserver 的 配置 本 处 不 再 歼 述 )。 
[root@hadoop-cm0 ~]# vncserver 


New 'hadoop-cm0:1 (root)' desktop is hadoop-cm0:1 
Starting applications specified in /root/.vnc/xstartup 


Log file is /root/.vnc/hadoop-cm0:1.10g 


然后 我 们 通过 VNC 客户 端 工具 就 可 以 连接 过 去 了 ， 界 面 如 下 图 所 示 : 


WC 浏览 器 : 连接 详细 资料 
站 有 器 : ~ 


CC ”加 密 : | 区 许 服务 器 夺取 与 认 区 
| [关于 ww ] GO | | WR ] [取消 


输入 密码 ， 即 可 进入 图 形 化 界面 环境 ， 界 面 如 下 图 所 示 : 


14. 下 载 cloudera-manager-installer.bin 
该 文件 是 整个 安装 的 入 口 ， 可 以 从 如 下 位 置 下 载 : 


http://archive-primary.cloudera.com/cm5/installer/5.0.2/ 


下 载 后 需 传 到 CM 服务 器 本 机 ， 本 示例 中 为 hadoop-cm0。 


CM 及 CDH 安装 


1. 启动 CM 安装 


首先 需 
进行 的 是 离 


:给 文件 cloudera-manager-installer.bin 赋予 可 执行 权限 。 另 外 ， 如 果 是 像 本 示例 一 样 
安装 ， 需 要 指定 --skip_repo_package=1 选项 。 如 下 图 所 示 。 


这 Applications Places system 起 时 吝 Fijd 4 211PM 


root@hadoop_cmo:— 
File Edit View Search Terminal Help 
rootehadoop cee ~]# pud 

/root 


rootehadoop_cng ~]# LL 
596 


abrt/ 

config/ 

root@hadoop_cn@ ~]# pud 

rootehadoop_cng ~]# chmol nanage 
root@hadoop cng ~]# ./clo insta 


在 终端 上 运行 命令 cloudera-manager-installer.bin --skip_repo_package=1， 开 始 安装 CM， 打 开 
界面 如 下 图 所 示 。 


襄 Applications Places System 者 是 冯 Fj 4 212PM roc 


rootehadoop_cmg: 


Ect View Search Terminal Help 
oot 

rootehadoop_cne ~]# Ul 

total 596 


Cloudera Manager 5 


Cloudera Manager README 


loudera Manager 5 


root@hadoop 
abrt 


config/ 
roott 

/root 
rootehadoop 
rootGhadoop_cn8 
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该 部 分 提示 是 安装 概述 , 提示 我 们 要 保持 各 节 
单 击 Next 按钮 ， 打 开 的 界面 如 下 图 所 示 。 


晤 sppiaations Places system 人 所 至 


Ee 


Frijdl 4, 212PM roc 


root@had 


File Edit View Search Terminal Help 


Cloudera Express License 
andard Lcense 


END USER UICENSE TERMS AND 
] conpmons 


esktop/ 
ocunents, 
m0 ~]# 


oop cn8 ~J#| | 
[rootenadoop cne ~]# 


此 处 为 CM 版 本 许可 证 信息 。 单 击 Next 按钮 ， 打 开 的 界面 如 下 图 所 示 。 


蜗 Appiatons Paces System 者 中 加。 mas 212PM rec 


Cloudera Express License 
Thoudera Standard Ucense 


Cloudera Express License | "saer.bin 


”commis icenser 


gy 
8 
wd 


sp 


nstaller .bin 
-16 /cloudera-manager-inst hin ~-skip_repo_package=l 


此 处 提示 我 们 接受 该 许可 证 ， 必 须 选 Yes， 打 开 的 界面 如 下 图 所 示 。 


连接 畅通 , 并 且 仅 通过 SSH 在 各 节点 间 通 信 。 
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Frijdl 4, 213PM 


Cloudera Manager 5 


ptaller.bin 


NTAINED IN THIS 
ENT AND 
ETERNS (COLLECTIVELY 
GREEMENT"). PLEASE READ THE 
AGREEMENT CAREFULIY BY SELECTING THE 


Cancal Back Next 


none2/ Wu: Pd emplates 
gvfs/ 1s/ .pulse/ Videos/ 


local/ pF sshy vnc/ 


era-nanager-installer .bin 
/cloudera-manager-installer bin ~-skip_repo_package=1 


Oracle Binary Code License Agreement 
Fle Edit View & 
rootahadool 

total 596 


+ the 


epplates/ 
Videos/ 
vnc/ 


# chnod +x cloudera-manager-installer.bin 
4 /ctoudera-manager-instatler bin --skip repo package=1 


此 处 必须 接受 该 许可 证 ， 选 择 Yes 按钮 。 随 后 启动 如 下 安装 过 程 : 


ns Places System 从 FJ 4 215PM roe 


Cloudera Manager 5 


Starting 
Fle Edit View 5 


chnod +x cloudera-manager-installer.bin 
# /cloudera-manager-installer bin --skip repo package=1 


安装 快 结束 时 , 提示 我 们 使 用 用 户 名 admin 密码 admin 访问 浏览 器 http://localhost:7180。 这 就 
是 未 来 CM 管理 界面 的 入 口 。 打 开 的 界面 如 下 图 所 示 。 


如 Applatos Places sytem 者 中 于。 ms za6p roc 


Cloudera Manager 5 


Finish 


Iinstallation was successful 


nller.bin 


单 击 Finish 按钮 ， 安 装 完成 。 打 开 浏 览 器 ， 在 地 址 栏 中 输入 提示 我 们 输入 的 url: 
http://localhost:7180， 用 户 名 和 密码 ， 界 面 如 下 图 所 示 。 
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大 数据 分 析 引 擎 Impala 实战 


Hle EN View Hatoy Bookmarks Do5 Help 
回 tegn- Cloudera Manager [ES 
[ET ES 的 鲁 
cloudera | 
Login 
2 Username: 
aamm 
@ Password: 
口 Remember me on this computer 
[9 IVNC config] 国 root@nadoop_cm0:~ 大 LoginzcloudeaMana 电 国 1 
单 击 Login 按钮 ， 登 录 系 统 ， 打 开 的 界面 如 下 图 所 示 。 
Ble Edt View History Bookmarks Tools Help 
weicome tw cloudera wanager- (il 
和 [本 iocainost 7 ~8| ~ 
Cloudera Suppon- 皇 admin 
Welcome to Cloudera Manager. Which edition do you want to deploy? 
Upgradng to Clouders Enterpriae Dota Hub Edition provdes important eatures that hep you manage and monior your Hacoop olusters in 
massion crtical envronments 
Cloudera Express Cloudera Enterprise Cloudera Enterprise 
Data Hub Edition Trial 
v 
License Free G0 Days Annual Subscription 
Arier the tial perod tne product wil 
contnue to unction ns Cloudera Express, 
Your custer and your data wil reman 
et Cloudera Enterpria is avalabio In throe 
» oditons: 
» Basic Edition 
» Flex Ediion 
» Data Hub Edltion 
Node Limit Unlimited Unlimited Unlimited 
cpH v v v 
Mea Fiano ~ 记 
nC inue 


[VNC config] 


国 root@hadoop_cm0:~ 


罗 Welcome to Cloudera 


这 里 我 们 可 以 看 到 CM 有 三 个 不 同 的 版 本 ，Enterprise 版 有 额外 的 功能 ， 是 收费 的 。Express 


版 是 免费 的 ， 功 能 相对 较 少 ， 在 较 早 


早 的 版 本 有 安装 的 节点 数 限制 ， 在 CM5.0.2 中 已 经 没有 节点 数 


限制 了 。Data Hub 版 提供 有 Enterprise 版 的 60 天 试用 期 ， 试 用 期 过 后 ， 自 动 转换 成 Express 版 。 


此 处 我 们 选择 Express 版 ， 单 放 
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生 Continue 按钮 ， 打 开 的 界面 如 下 图 所 示 。 
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ER Wew Hatory BoomarG Ipols Help 
Thank you for choosing Gouder... | 二 
和 [ 钱 Iocahost71 ey i S| ~ 胸 熏 


cloudera， Suppor- 主 admin 


Thank you for choosing Cloudera Manager and CDH. 


This nstaler whl nstall Cloudera Express 5.0.2 and enable you to lalar choose packages for he services below (there may be some lcense 
‘mplcations). 


» Apacne Hadoop (Common, HDFS, MapReduce. YARN) 


» Hue (Apache licensed) 
» Apache Flume 
» Cloudera Impala (Apache lcensed) 
» Apacne Saoop 
» Cloudara Search (Apacne lcensed) 
» Apacne Spark 
You are using Cloudera Manager to nstal and configure your system. You can leam more about Cloudera Manager by cickng on the 
Support menu above 


[= IvNcC configl 国 root@hadoop_cm0:~ Thank you for choosin Si 


本 部 分 提示 我 们 可 以 使 用 CM 来 部 署 和 管理 的 组 件 。 单 击 Continue 按钮 ， 打 开 的 界面 如 下 图 
所 示 。 


Fle Edit View History Bookmarks Tools Help 
回 spectty nosts for your coH clus., | 本] 
和 [本 pcanost 7 Prose ~®| (3~ 移 重 


cloudera Suppor- 旦 admin 


Specify hosts for your CDH cluster installation. 


Hosts snouid be speciied using the game hostname [FODN) thatihey wil donthy themeehos witn. 
Cloudora recommends ineluding Cloudera Manager Servers host This wilaleo enable hoalth moniioring for that host 
Hint: Search for noetnames and/or IP addrossos using patlorns e， 


192.168.0.151-156] 


SsSH Port 


[= [VNC config] 国 ootehadoop cmo~ |i Specify hosts foryour FE 7 1 


上 图 所 示 的 界面 中 ， 需 要 根据 我 们 的 规划 ， 填 入 各 主机 名 。 

需要 注意 的 是 , 我 们 可 以 使 用 类 似 正则 表达 式 的 方式 来 表示 主机 名 或 者 IP 地 址 ， 对 于 动 轰 上 
百 上 千 个 节点 的 集群 来 说 ， 给 我 们 提供 了 很 大 的 便利 。 

这 里 ， 我 们 需要 安装 的 IP 是 从 192.168.0.151 到 192.168.0.155， 可 以 使 用 192.168.0.[151-155] 

为 了 确认 我 们 填 入 的 主机 名 或 者 IP 地 址 是 否 正确 ， 可 以 让 CM 自动 搜索 ， 单 击 Search 按钮 。 搜 
索 之 后 ， 可 以 看 到 我 们 刚才 输入 的 各 节点 对 应 的 主机 名 以 及 连接 的 响应 时 间 等 ， 界 面 如 下 图 所 示 。 
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注意 : 在 安装 过 程 中 主机 名 不 得 有 下 划 线 ， 如 果 有 下 划 线 ， 此 处 将 会 报 如 下 图 所 示 的 


Falled to start cloudera Manager Agent (Falled step 
(Current Step) 


继续 单 击 Continue 按钮 ， 打 开 的 界面 如 下 图 所 示 。 此 处 我 们 选择 Use Parcels 选项 。 


Cluster Installation 


Select Reposttory 


在 上 图 所 示 的 界面 上 ， 分 别 指定 CM 和 CDH 的 本 地 yum 源 地址 ， 本 示例 中 分 别 为 : 


http://192.168.0.10/cm502 
http://192.168.0.10/parcels 


错误 : 


此 处 输入 root 密码 ， 确 认 ， 单 击 Continue 按钮 ， 界 面 如 下 图 所 示 。 


此 处 开始 进入 CDH 安装 过 条 


界面 如 下 图 所 示 。 


二 本 ma lm ea 


Cluster Installation 


Provide ssH iogin credentiats, 


Cluster Installation 


installation completed successftully 


Cluster Installation 


ted Parcels 


六 


站 责 将 parcel 文件 分 发 到 各 节点 。 单 击 Continue 按钮 ， 


Cluster Installation 


Iinstalling Selected Parceh 


CoNs otedhs ha 


EET 


parcel 包 分 发 完成 。 单 击 Continue 按钮 ， 界 面 如 下 图 所 示 。 


Cluster Installation 


Inspect hosts for correctness 


Validations 


此 处 单 击 Inspector 会 进行 安装 
按钮 ， 界面 如 下 图 所 示 。 
注意 : 如 果 遇 到 如 下 图 所 示 的 问题 ， 请 


-次 之 后 变 为 Run Again。 单 击 Finish 


第 10 步 执行 。 


| 


接 下 来 的 步骤 让 我 们 选择 需要 服务, 如 下 图 所 示 。 为 了 安装 Impala, 我 们 可 以 选择 Core 
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With Impala 选项 。 


Cluster Setup 


Choose the CDH 5 services that you want to install on your cluster, 


Eyre [x = 
但 是 如 果 选 择 该 选项 ， 将 会 启动 如 下 服务 : 
® HDFS 

® YARN 

® Zookeeper 

® Oozie 

e Hive 

® Hue 

® Sqoop 

® Impala 


如 果 我 们 不 需要 像 Sqoop 这 样 的 服务 ， 我 们 也 可 以 选择 自 定义 安装 方式 Custom Services。 
单 击 Continue 按钮 ， 打 开 如 下 图 所 示 的 界面 。 


ET 


此 处 我 们 选择 了 需要 的 最 小 安装 ， 也 就 是 HDFS，Hue，YARN，ZooKeeper。 单 击 Continue 
按钮 ， 界面 如 下 图 所 示 。 
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Cluster Setup 


a Role Assl 


Cluster Setup 


Customize Role Assignments 


我 们 根据 之 前 列 中 的 规划 ， 选 择 hadoop-cml 为 NameNode，hadoop-csl 为 SecondaryName 
Node，hadoop-cs1、hadoop-cs2、hadoop-cs3 为 DataNode。 单 击 Continue 按钮 ， 界 面 如 下 图 所 示 。 


Cluster Setup 


Database setup 


Ei EE 瑟 


可 启 
此 处 选择 存储 元 数据 使 用 的 数据 库 ， 我 们 选择 内 置 的 Postgresql 数据 库 ， 界 面 如 下 图 所 示 。 
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Cluster Setup 


Database setup 


如 果 选 择 自 定 义 的 数据] 车 ， 可 以 使 用 Test Connection 按钮 来 确认 数据 库 的 连通 性 。 但 是 如 果 
选择 内 置 的 数据 库 ， 由 于 数据 库 还 没有 初始 化 ， 所 以 会 忽略 此 步骤 。 界 面 如 下 图 所 示 。 


单 击 Continue 按钮， 界面 如 下 图 所 示 。 


Cluster setup 


Review Changes 


此 处 为 集群 的 配置 信息 ， 我 们 可 以 指定 HDFS 在 本 地 文件 系统 上 对 应 的 存储 位 置信 息 等 。 
单 击 Continue 按钮 ，CM 开始 配置 各 服务 ， 界 面 如 下 图 所 示 。 


2 
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t Fm pon 


Command Progress 


EE ee Coe 


配置 完成 后 启动 各 服务 ， 界 面 如 下 图 所 示 


单 击 Continue 按钮 ， 界 面 如 


下 图 所 示 。 


cloudera manager 


Cluster Setup 


Congratulationat 


单 击 Finish 按钮 。CM 安装 过 程 完 


Hive 安装 


Hive 是 安装 Impala 之 前 的 必 选 组 件 。 除 了 Impala 要 部 分 共享 Hive 的 元 数据 库 之 外 ， 对 于 某 
些 Impala 支持 得 不 是 很 好 的 数据 文件 格式 ， 我 们 也 需要 先 在 Hive 中 加 载 数据 ， 然 后 从 Impala 中 
进行 查询 。 

首先 打开 CM 管理 界面 ， 


如 下 图 所 示 。 


和 


Add Service Wizard 


Sotoct he ype ol service you want to aad 


ese hedep Mn 
日 


Swe Wad 


选择 Hive 组 件 选项 。 单 击 Continue 按钮 ， 界 面 如 下 图 所 示 。 
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Add Service Wizard 


Select the set ot dependencles tor yourn 


adiSerdes maa c. 


选择 Hive 依赖 的 服务 ， 单 击 Continue 按钮 ， 界 面 如 下 图 所 示 。 


A Serwce waa € 


此 处 配置 Hive 各 角色 ， 单 击 Continue 按钮 ， 界 面 如 下 图 所 示 。 


选择 使 用 内 幅 的 数据 库 作 为 Hive 的 元 数据 库 ， 打 开 的 界面 如 下 图 所 示 。 


Add Service Wizard 


Review changes 


Alisarven wand C. 里 


息 ， 单 击 Continue 按钮 ， 界 面 如 下 图 所 示 。 


Add Service Wizard 


Progress 
CCommand Conient 


Command Progross 


Son Wad 


CM 开始 配置 Hive 各 组 件 ， 界 面 如 下 图 所 示 。 


er Wiad 本 


hc conflg] 量 | 
配置 完成 后 启动 各 服务 ， 单 击 Continue 按钮 ， 打 开 的 界面 如 下 图 所 示 。 
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Add Service Wizard 


单 击 Finish 按钮 ，Hive 安装 完成 。 


Impala 安装 


前 面 所 有 的 准备 工作 都 是 为 了 最 终 安 装 Impala 组 件 。Impala 的 安装 过 程 和 Hive 的 安装 过 程 
非常 类 似 ， 本 节 简 单 介绍 如 下 。 

在 CM 管理 界面 单 击 Add a Service。 

选择 Impala， 单 击 Continue 按钮 。 


Add Service Wizard 


select the ype of service you want to add 


选择 依赖 的 服务 ， 单 击 Continue 按钮 。 
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Add Service Wizard 


Select the set of dependencles for your new service 


nors 


WE A Seriee Wim 局 | 
此 处 选择 Impala 角色 ， 我 们 将 Catalog 服务 和 StateStore 部 署 在 主 节 点 hadoop-cml 上 ， 将 
Impala 进程 节点 部 署 在 从 节点 上 。 单 击 Continue 按钮 。 


此 处 我 们 填写 Impala 元 数据 库 我 们 可 以 使 用 默认 的 Postgresql 数据 库 ， 也 可 以 使 用 其 
他 数据 库 。 配 置 完成 后 单 击 Continue 按钮 。 


Review Changes 


PEE 


CM 完成 Impala 的 安装 配置 后 ， 启 用 相关 的 服务 。 
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ad Service Wirard - louder Mana9or ~ Moniia Firetor 


Add Service Wizard 


Progress 


Command Progress 


Add Service Wizard 


CCongratulations! 


wc corny Mi Saden Wand € Pe 


在 Impala 安装 完成 之 后 , 我 们 就 可 以 来 学 习 如 何 使 用 它 了 。 本 章 我 们 将 通过 具体 的 实例 直观 地 
展示 Impala 的 使 用 过 程 : 数据 加 载 ， 数 据 查询 ， 分 区 表 ， 外 部 分 区 表 ， 笛 卡尔 连接 及 更 新 元 数据 
等 。 


2 .1 数据 加 载 


如 果 我 们 想 使 用 Impala， 那 么 首先 需要 将 数据 加 载 到 Impala 之 中 。 如 何 才能 将 数据 加 载 到 
Impala 中 呢 ? 要 想 将 数据 加 载 到 Impala 当中 ， 一 共有 两 种 途径 : 


@ 使 用 外 部 表 。 此 方式 适用 于 我 们 已 经 有 了 数据 文件 的 情况 ， 我 们 只 需 将 数据 文件 拷贝 到 
HDFS 上 ， 然 后 建立 一 张 Impala 外 部 表 ， 将 外 部 表 的 存储 位 置 指向 数据 文件 的 位 置 即 可 。 

e@ 通过 INSERT 插入 数据 ,此 方式 适用 于 我 们 没有 数据 文件 ， 需 要 通过 对 其 他 表 的 数据 进行 
过 滤 转 换 生 成 新 的 数据 的 情况 。 


如 下 将 演示 通过 两 种 方式 来 向 Impala 中 加 载 数据 的 过 程 。 
1. 准备 数据 


本 步骤 需要 将 放 在 本 地 文件 系统 上 的 数据 文件 上 传 到 HDFS 的 指定 位 置 上 。 
放 在 本 地 文件 系统 上 的 原始 数据 文件 如 下 所 示 : 


tabl.csv 


tab2.csv 
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查看 原始 HDFS 上 impala 的 默认 目录 : 


为 这 两 个 文件 分 别 建立 单独 的 目录 : 


将 本 地 文件 系统 的 数据 文件 上 传 到 HDFS 上 : 
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2. 创建 表 


此 处 我 们 创建 三 张 表 ， 分 别 为 tb1，tab2，tab3。 其 中 tab1，tab2 为 外 部 表 ， 直 接 使 用 HDFS 
上 的 数据 文件 。tab3 为 内 部 表 ， 通 过 表 tab1，tab2 的 数据 生成 。 
在 hadoop-csl 节点 上 ， 连 接 到 impala-shell: 


在 impala-shell 中 执行 创建 表 的 操作 : 
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tab1、tab2 两 张 表 创建 为 外 部 表 ， 并 将 数据 位 置 指向 了 我 们 之 前 创建 的 HDFS 目录 。 这 里 值 
得 我 们 注意 的 是 ， 我 们 指定 的 位 置 是 一 个 目录 ， 而 不 是 文件 ， 如 果 这 个 目录 中 包含 其 他 文件 ， 无 
论 这 个 文件 的 名 称 是 什么 Impala 会 将 其 统统 作为 表 的 数据 文体 在 创建 表 时 , 使 用 了 EXTERNAL 
关键 字 ， 它 的 含义 与 其 他 传统 的 关系 型 数据 库 的 外 部 表意 义 类 似 ， 表 的 定义 保存 在 Impala 中 ， 使 
用 的 数据 文件 就 是 定义 在 LOCATION 中 的 HDFS 上 对 应 位 置 的 数据 文件 。 在 ROW FORMAT 
DELIMITED 子 名 中 指定 数据 文件 使 用 逗号 分 隔 如 下 例 押 示 。 


tab3 创建 为 内 部 表 。 该 创建 表 的 过 程 没有 使 用 EXTERNAL 关键 字 。 存 储 时 使 用 Impala 默认 
的 数据 文件 位 置 。 存 储 的 数据 文件 也 是 以 逗号 分 隔 。 

在 执行 完 创建 表 的 过 程 后 ,我 们 如 何 查 看 表 定义 信息 呢 ? 可 以 使 用 DESCRIBE table_name 语 
句 查 看 已 经 创建 过 的 表 的 定义 信息 : 
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通过 该 命令 ， 我 们 可 以 查看 创建 过 的 所 有 的 表 。 
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DESCRIBE 命令 可 以 简写 为 DESC。 通 过 该 命令 可 以 查看 表 的 列 名 称 及 列 定义 等 信息 。 


3. 加 载 数据 


对 于 表 tab1，tab2， 由 于 他 们 是 外 部 表 ， 所 以 我 们 只 需要 通过 表 定 义 与 数据 文件 的 位 置 关联 
起 来 即 可 ， 不 需要 额外 的 数据 加 载 过 程 。 


而 此 时 ， 表 tab3 是 没有 数据 的 。 
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我 们 可 以 通过 INSERT 语句 将 表 tabl，tab2 的 数据 经 过 关联 ， 转 换 插 入 到 表 tab3 中 。 


这 里 的 NSERT .… SELECT 语句 与 传统 数据 库 中 的 基本 相同 。 OVERWRITE 关键 字 表示 将 使 
用 查询 的 结果 覆盖 表 中 已 经 存在 的 数据 。 


插入 之 后 ， 我 们 即 可 从 表 tab3 中 查询 出 数据 。 需 要 说 明 的 是 ，Impala 不 具备 传统 数据 库 的 
ACID 属性 ， 插 入 数据 后 不 需要 做 COMMIT 操作 。 

由 于 Impala 表 的 数据 都 是 存储 在 HDFS 上 的 ， 所 以 进行 完 插入 操作 之 后 ，Impala 会 自动 为 内 
部 表 tab3 创建 一 个 数据 目录 ， 并 将 数据 文件 写 入 其 中 。 
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了 .2 数据 查询 


Impala 支持 大 部 分 传统 数据 库 支 持 的 聚集 ， 关 联 ， 子 查询 等 操作 。 
1. 聚集 和 关联 操作 


对 表 tabl 和 tab2 使 用 id 进行 关联 ， 并 按 列 tabl.col_1 进行 分 组 操作 ， 并 计算 出 对 应 的 列 
tab2.col_2 对 应 的 最 大 值 和 最 小 值 。 


2. 带 有 子 查询 的 聚集 和 关联 操作 
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对 表 tabl，tab2 按照 id 进行 关联 ，tabl.col_1 进行 分 组 ， 计 算 tab2.col_2 的 最 大 值 ， 并 将 语句 
作为 子 查询 与 tab2 关联 。 


2.3 分 区 表 


与 传统 的 数据 库 类 似 ，Impala 的 分 区 表 也 会 将 某 个 分 区 的 数据 单独 存放 ， 当 我 们 指定 的 
WHERE 条 件 是 针对 某 个 分 区 的 查询 时 ，Impala 将 只 会 扫描 该 分 区 的 数据 文件 ， 大 大 减少 了 需要 
从 磁盘 读 取 的 数据 量 ， 提 高 了 查询 的 效率 。 

本 节 内 容 我 们 将 介绍 如 何 创建 一 张 分 区 表 ， 以 及 分 区 表 在 HDFS 文件 系统 中 的 组 织 结构 。 


为 了 将 分 区 表 的 数据 单独 存放 ， 我 们 可 以 创建 一 个 单独 的 数据 库 。 这 里 创建 的 数据 库 名 称 为 
external partitions 。 


如 果 我 们 想 在 新 创建 的 数据 库 中 创建 对 象 ， 我 们 必须 首先 使 用 USE 命令 将 当前 数据 库 切 换 


为 external_partitions。 


这 里 我 们 创建 了 一 张 分 区 表 ，partitioned by (year string, month string , day string, host string) 表 
示 使 用 year，month，day，host 作为 分 区 列 ，row format delimited fields terminated by '" 表 示 存 储 的 
数据 文件 以 逗号 分 隔 。 另 外 ， 这 里 的 分 区 列 year，month，day，host 都 不 出 现在 create table 后 面 
的 对 列 定义 的 列表 中 ， 也 就 是 这 里 的 logs (fieldl string, field2 string, field3 string) 部 分 中 。 
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我 们 使 用 insert into 的 形式 向 特定 的 分 区 中 写 入 数据 ,这 里 写 的 数据 都 是 "foo"、 "foo"、"foo"。 
对 于 一 个 包含 某 些 特定 分 区 数据 的 单独 创建 的 分 区 表 ， 他 们 是 以 什么 形式 存储 在 HDFS 上 的 呢 ? 


这 里 的 文件 夹 为 external_partitions.db，external_partitions 是 我 们 刚刚 单独 创建 的 数据 库 的 名 
称 ， 而 .db 的 后 绥 也 是 为 了 说 明 这 是 一 个 数据 库 对 应 的 目录 。 


数据 库 目 录 external_partitions.db 下 的 logs 文件 夹 恰好 是 我 们 创建 的 分 区 表 的 名 称 。 


year=2013 是 我 们 创建 分 区 表 是 指定 的 4 个 分 区 列 中 的 第 一 列 。 
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开源 大 数据 分 析 引 擎 Impala 实战 


year=2013 目录 下 有 month=07 和 month=0& month 是 我 们 创建 分 区 表 时 指定 的 4 个 分 区 列 中 
的 第 二 列 。 


month=07 和 month=08 的 子 目录 下 又 有 day=28，day=29，day=01 的 子 目 录 ， 而 day 是 我 们 
创建 分 区 表 时 指定 的 4 个 分 区 列 中 的 第 三 列 。 


同样 的 ， 在 day=28 下 又 有 host=host1，host=host2 的 子 目录 ， 而 host 是 我 们 创建 分 区 表 时 指 
定 的 4 个 分 区 列 中 的 第 四 列 。 在 year=2013/month=07/day=28/host=hostl1 下 ， 我 们 可 以 看 到 Impala 
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自动 生成 的 数据 文件 c9446623acb6363b-d2bbeef4df81f4af 1068880746 data.0。 


通过 hdfs 命令 ， 我 们 可 以 查看 到 该 数据 文件 以 逗号 分 隔 的 形式 存储 了 值 fpo，foo，foo。 
我 们 可 以 通过 drop table 删除 该 分 区 表 。 


分 区 表 删 除 之 后 ， 对 应 的 目录 及 文件 也 一 并 被 级 联 删 除 。 


2 .4 外 部 分 区 表 


如 果 我 们 已 经 有 了 各 分 区 对 应 的 数据 文件 ， 只 是 希望 这 些 文件 以 分 区 表 的 形式 组 织 在 一 起 ， 
则 可 以 使 用 外 部 分 区 表 。 与 普通 分 区 表 类 似 ， 我 们 首先 需要 在 HDFS 上 创建 对 应 的 目录 结构 ， 并 
将 数据 文件 put 到 对 应 的 位 置 ， 然 后 通过 CREATE TABLE 语句 指向 我 们 创建 的 HDFS 目录 就 可 
以 了 。 


41 


开源 大 数据 分 析 引擎 Impala 实战 


在 hdfs 用 户 下 创建 分 区 表 的 目录 结构 。 由 于 每 个 分 区 对 应 分 区 列 的 具体 值 ， 这 里 我 们 创建 四 
个 分 区 作为 示例 。 


在 实际 的 生产 环境 中 ， 每 个 分 区 对 应 的 数据 文件 完全 不 同 。 但 此 处 作为 实验 ， 我 们 为 每 个 分 
区 使 用 同一 个 数据 文件 。 将 该 数据 文件 上 传 到 各 分 区 对 应 的 目录 中 。 


使 用 CREATE EXTERNAL TABLE 语句 创建 外 部 分 区 表 。 通 过 LOCATION 指向 我 们 创建 的 
目录 对 应 的 位 置 Vuserimpala/data/logs'。 
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手动 为 该 分 区 表 添 加 分 区 ， 添 加 分 区 时 需要 指定 该 分 区 列 的 具体 键 值 。 


创建 完成 后 即 可 对 该 分 区 表 进 行 查询 操作 。 


删除 之 后 对 应 的 数据 文件 的 目录 及 数据 文件 仍然 存在 其 实 对 于 外 部 表 通过 DROP TABLE 


43 


开源 大 数据 分 析 引 擎 Impala 实战 


命令 仅仅 是 删除 标的 定义 而 已 。 


2 .5 第 卡尔 连接 


在 数据 仓库 应 用 中 ， 我 们 通常 会 通过 笛 卡 尔 乘 积 对 两 个 或 者 多 个 不 同 的 维度 进行 关联 ， 以 得 
到 所 有 可 能 的 维度 组 合 。 比 如 ， 通 过 年 份 和 季度 的 组 合 ， 我 们 就 可 以 得 到 所 有 年 份 的 所 有 季度 。 

在 Impala 老 版 本 中 ， 如 果 想 对 两 张 表 进行 关联 ， 必 须 至 少 要 指定 一 个 等 值 连接 条 件 ， 否 则 就 
会 报错 Impala 这 样 设计 的 初 囊 是 对 于 两 张 没 有 关联 条 件 的 大 表 进 行 JOIN, 就 会 产生 笛 卡 尔 乘积 ， 
这 样 将 生成 一 个 巨大 的 结果 集 ， 消 耗 大 量 的 集群 资源 。 

我 们 创建 了 两 张 维 度 表 ， 一 张 是 年 份 ， 一 张 是 季度 。 


如 果 这 两 张 表 没有 等 值 的 关联 系 件 ，Impala 会 直接 报错 。 
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自 Impala 1.2.2 起 我 们 可 以 通过 将 JOIN 替换 为 CROSS JOIN 来 显示 的 指定 连接 操作 符 进行 
笛 卡 尔 连接 操作 。 当 然 ， 一 般 情况 下 我 们 不 会 针对 特别 大 的 两 张 表 进 行 笛 卡尔 操作 。 


通过 制定 CROSS JOIN 作为 查询 操作 符 ， 可 以 正常 进行 笛 卡 尔 连 接 操作 。 


2 .6 更 新 元 数据 


本 章 示例 中 的 Impala 的 数据 文件 我 们 都 使 用 以 逗号 分 隔 的 文本 文件 。 事 实 上 ，Impala 可 以 对 
RCFile、SequenceFile、Parquet、Avro 等 多 种 文件 格式 进行 查询 。 而 对 于 某 些 类 型 的 Impala 支持 
的 不 太 好 的 文件 格式 ，Impala 只 能 对 其 进行 查询 操作 ， 却 无 法 向 其 中 写 入 数据 。 

如 果 我 们 又 不 得 不 向 其 中 写 入 数据 ， 就 必须 通过 Hive 来 进行 。 

对 于 通过 Hive 创建 ， 删 除 ， 修 改 或 者 其 他 类 型 的 操作 ，Impala 都 无 法 自动 识别 到 Hive 中 元 
数据 的 变更 情况 。 如 果 想 让 Impala 识别 到 这 些 变化 ， 在 连接 到 impala-shell 后 首先 要 做 的 操作 就 
是 INVALIDATE METADATA， 该 语句 将 会 使 所 有 的 Impala 元 数据 失效 并 重新 从 元 数据 库 同 步 元 
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数据 信息 。 


对 于 通过 Hive 加 载 ， 插 入 ， 改 变 的 数据 操作 ， 或 者 通过 hdfs 命令 对 数据 文件 进行 的 变更 操 
作 ，Impala 都 无 法 自动 识别 数据 的 变更 情况 。 如 果 想 让 Impala 识别 到 这 些 变化 ， 在 连接 到 
impala-shell 后 ， 首 先 要 做 的 操作 就 是 REFRESH table_ name， 该 语句 会 让 Impala 识别 到 数据 的 变 
更 情况 。 


本 章 将 主要 介绍 Impala 的 概念 及 技术 架构 ，Impala 应 用 编程 ， 以 及 与 Hadoop 集群 生态 系统 的 
集成 关系 。 通 过 对 Impala 概念 及 技术 架构 的 阐述 ， 将 帮助 我 们 从 原理 上 初步 理解 Impala 的 运行 原 
理 及 使 用 场景 。 通 过 对 Impala 应 用 编程 的 了 解 ， 我 们 可 以 针对 不 同 的 应 用 选择 不 同 的 方式 调用 
Impala。 通 过 对 Impala 与 其 他 Hadoop 组 件 的 集成 关系 ， 将 帮助 我 们 更 好 的 将 Impala 与 其 他 相关 
技术 结合 使 用 。 


3.1 Impala 服务 器 组 件 


Impala 服务 器 是 一 个 分 布 式 ， 大 规模 并 行 处 理 (MPP) 数据 库 引 擎 。 它 包括 运行 在 CDH 集 
群 主机 上 的 不 同 后 台 进程 。 


3.1.1 Impala Daemon 


这 个 进程 是 运行 在 集群 每 个 节点 上 的 守护 进程 ， 是 Impala 的 核心 组 件 。 在 每 个 节点 上 这 个 进 
程 的 名 称 为 mpalad。 
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impala 4330 1831 0 11;53 ? 00:00:11 
/usr/lib/impala/sbin-retail/impalad 
--flagfile=/var/run/cloudera-scm-agent/process/145-impala-IMPALAD/impala-conf/imp 
alad flags 


它 负 责 读 写 数据 文件 ， 接 受 来 自 impala-shell，Hue，JDBC 或 ODBC 的 查询 请 求 ， 与 集群 中 
的 其 他 节点 分 布 式 并 行 工 作 ， 并 将 本 节点 的 查询 结果 返回 给 中 心 协 调 者 节点 。 
我 们 可 以 向 任何 一 个 节点 的 impalad 进程 提交 一 个 查询 ， 提 交 查 询 的 这 个 节点 将 作为 这 个 查 
询 的 “协调 者 节点 ”为 这 个 查询 提供 服务 。 其 他 节点 的 运算 结果 会 被 传输 到 协调 者 节点 ， 协 调 者 
节点 将 最 终 运算 结果 返回 。 当 我 们 使 用 impala-shell 进行 功能 性 测试 的 时 候 , 方便 起 见 , 我们 总 是 
会 连接 到 同一 个 节点 的 impalad 上 。 对 于 运行 在 生产 环境 上 的 impala 集群 来 说 ， 我 们 必须 考虑 到 
各 节点 的 负载 均衡 , 建议 使 用 JDBC/ODBC 接口 以 round-robin 的 方式 将 每 个 查询 提交 到 不 同 节点 
的 impalad 进程 上 。Impala 架构 如 下 图 所 示 ， 读 者 可 以 到 官网 查阅 相应 的 彩 图 。 


Impala: Architecture 


terface Unified metadata store 


Hi 
HDFS Nam 


Impala statestore 


Intermediate results are streamed 
between impalad's, and query results 
are streamed back to the client 


Impalad impalad Impalad 


HDFS DN HBase RS HDFS DN RS HDFS DN HBase RS 


为 了 了 解 其 他 节点 的 健康 状况 和 负载 ，Impalad 进程 会 一 直 与 statestore 保持 通信 。 

当 impala 集群 中 创建 , 修改 或 者 删除 了 对 象 ,或 者 进行 了 INSERTILOAD DATA 操作 , catalogd 
进程 要 向 所 有 节点 广播 消息 ， 以 保证 每 个 impalad 节点 都 能 够 及 时 地 了 解 整个 集群 中 对 象 元 数据 
的 最 新 状态 。 后 台 进 程 间 的 通信 最 大 限度 的 降低 了 对 REFRESH/INVALIDATE METADATA 命令 
的 依赖 。( 但 是 对 于 和 impala 1.2 版 本 之 前 的 节点 通信 ， 还 是 需要 显示 指定 的 。) 


3.1.2 Impala Statestore 
Statestore 搜集 集群 中 impalad 进程 节点 的 健康 状况 ， 并 不 断 地 将 健康 状况 的 结果 转发 给 所 有 


48 


第 3 章 Impala 概念 及 架构 


的 impalad 进程 节点 。Statestore 进程 的 名 称 为 statestored。 


[root@hadoop-cml ~]# ps -eflgrep statestored 

impala 5658 1844 0 L153 a 00:00:08 
/usr/lib/impala/sbin-retail/statestored 
--flagfile=/var/run/cloudera-scm-agent/process/147-impala-STATESTORE/impala-conf/ 
state_store flags 


-个 impala 集群 只 需要 一 个 statestored 进程 节点 。 当 impala 节点 由 于 硬件 故障 ， 网 络 错误 ， 
软件 问题 或 者 其 他 原因 导致 节点 不 可 用 ，statestore 将 确保 这 一 信息 及 时 的 传达 到 所 有 的 impalad 
进程 节点 上 ， 当 有 新 的 查询 请 求 时 ，impalad 进程 节点 将 不 会 把 查询 请 求 发 送 到 不 可 用 的 节点 上 。 
如 下 图 所 示 。 


Impala: Architecture 


impalad's continually talk to 
statestored to update their state 
and to receive metadata to use 
for query planning 


impalad impalad Impalad 


EEC 


ine 
HDFS DN Base RS HBase RS 


Statestore 的 目的 是 在 集群 故障 时 对 impalad 进程 节点 同步 信息 ， 所 以 对 于 一 个 正常 运行 的 
impala 集群 来 说 ， 它 并 不 是 一 个 关键 进程 。 如 果 statestore 不 可 用 ，impalad 进程 节点 之 间 仍 然 可 
以 相互 协调 正常 对 外 提供 分 布 式 查询 。 在 statestore 不 可 用 的 情况 下 ，impalad 进程 节点 失败 ， 只 
是 让 集群 不 再 那么 强劲 。 当 statestore 恢复 正常 时 ， 它 将 重新 与 impalad 进程 节点 建立 通信 ， 恢 复 
对 集群 的 监控 功能 。 


3.1.3 Impala Catalog 

当 Impala 集群 中 执行 的 SQL 语句 会 引起 元 数据 变化 时 ，catalog 服务 负责 将 这 些 变化 推送 到 
其 他 impalad 进程 节点 上 。Catalog 服务 对 应 的 进程 名 称 为 catalogd。 一 个 impala 集群 只 需要 一 个 
catalogd 进程 。 因 为 所 有 的 请 求 都 是 通过 statestored 进程 发 送 过 来 ， 所 以 让 statestored 和 catalogd 
运行 在 同一 个 节点 上 是 一 个 不 错 的 选择 。 
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在 impala 1.2 版 本 中 的 这 个 新 的 进程 大 大 减少 了 对 REFRESH/INVALIDATE METADATA 语句 
的 元 数据 同步 需求 。 通 常情 况 下 ， 如 果 在 一 个 impalad 进程 节点 上 执行 了 CREATE 
DATABASE,DROP DATABASE,CREATE TABLE,ALTER TABLE,DROP TABLE 语句 ， 在 其 他 
impalad 进程 节点 运行 一 个 查询 之 前 总 是 要 执行 INVALIDATE METADATA 语句 同步 对 象 的 元 数 
据 信息 。 同 样 的 道理 ， 如 果 在 一 个 impalad 进程 节点 执行 INSTERT 语句 ， 其 他 节点 在 运行 一 个 查 
询 之 前 需要 执行 REFRESH table_ name， 以 便 让 这 个 节点 知道 这 个 表 有 新 增 的 数据 文件 。 当 通过 
impala 执行 可 能 引起 元 数据 变化 的 语句 时 ，catalog 服务 确保 不 必 再 执行 REFRESH/INVALIDATE 
METADATA 这 样 的 元 数据 同步 语句 。 但 是 如 果 是 通过 Hive 进行 创建 表 ， 加 载 数据 等 类 似 的 操作 
时 ， 还 是 需要 在 impalad 进程 节点 上 执行 REFRESH/INVALIDATE METADATA 操作 的 。 

我 们 在 某 个 impalad 进程 节点 上 执行 了 一 个 创建 表 和 删除 表 的 过 程 : 


随后 我 们 在 catalogd 进程 节点 的 日 志 中 ， 可 以 看 到 以 下 信息 : 
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可 以 发 现在 创建 和 删除 表 的 过 程 中 ，catalogd 进程 负责 连接 到 元 数据 库 并 进行 元 数据 更 新 操 
作 。 


3 Impala 应 用 编程 


Impala 核心 的 开发 语言 是 SQL 语句 .Impala 也 可 以 通过 JDBC/ODBC 接口 为 其 他 语言 提供 服 
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务 。 许 多 BI 工具 就 是 通过 JDBC/ODBC 对 Impala 进行 调用 的 。 对 于 某 种 特定 类 型 的 分 析 需 求 ， 
我 们 也 可 以 使 用 C++ 或 者 Java 编写 SQL 内 嵌 函 数 UDF。 


3.2.1 Impala SQL 方言 


Impala SQL 方言 继承 了 Apache HiveQL 的 SQL 语法 。 对 于 已 经 有 在 Hadoop 上 有 SQL 使 用 
经 验 的 使 用 者 来 说 ， 转 向 Impala SQL 将 非常 容易 。 目 前 ，Impala SQL 支持 HiveQL 语句 ， 数 据 
类 型 和 内 堪 函 数 的 子 集 。 

对 于 曾经 有 传统 的 数据 库 经 验 的 使 用 者 来 说 ， 有 一 下 几 点 需要 注意 : 


(1)Impala SQL 的 重点 在 于 查询 , 所 以 只 包含 很 少 的 DML 语句 。 它 不 具备 UPDATA/DELETE 
语句 。 对 于 过 期 的 数据 通常 使 用 直接 删除 (通过 DROP TABLE,ALTER TABLE...DROP PARTITION 
语句 ) 或 者 替换 (INSERT OVERWRITE 语句 ) 的 方式 变相 删除 。 

(2) 数 据 加 载 通过 INSERT 语句 完成 ,通常 是 通过 对 其 他 表 的 查询 转换 后 进行 批量 插入 操作 。 
可 以 使 用 INSERT INTO 向 已 存在 的 数据 的 表 添 加 数据 ， 也 可 以 使 用 INSERT OVERWRITE 语句 
将 整个 表 或 者 分 区 的 内 容 蔡 换 ， 但 是 没有 针对 单行 记录 操作 的 INSERT .…. VALUES 语法 。 

(3) 我 们 常常 需要 使 用 Hadoop 现 有 的 数据 文件 创建 Impala 表 定 义 ， 然 后 使 用 Impala 进行 
实时 查询 。 这 些 数 据 文件 和 表 元 数据 可 以 被 Hadoop 生态 系统 其 他 组 件 共享 。 

(4) Imapla 适用 于 数据 仓库 类 型 大 数据 集 进 行 操作 ，Impala SQL 支持 类 似 于 传统 数据 库 的 
数据 加 载 方式 。 我 们 可 以 基于 一 个 逗号 分 隔 的 文本 文件 使 用 CREATE TABLE 语句 创建 一 张 外 部 
表 。 外 部 表 可 以 从 现 有 的 数据 文件 中 读 取 数 据 ， 而 不 需要 移动 或 者 转换 数据 文件 。 

(5) 因为 Impala 读 取 的 大 量 数据 可 能 不 是 完全 对 齐 的 ， 它 不 支持 字符 串 类 型 的 长 度 限制 。 
我 们 可 以 定义 String 作为 一 个 数据 列 ， 而 不 是 CHAR(1) 或 VARCHAR(64)。 

(6) 对 于 查询 密集 型 应 用 程序 ， 你 会 发 现 跟 传统 数据 库 类 似 的 概念 ， 比 如 : 连接 ， 处 理 字符 
串 ， 数 字 ， 日 期 的 内 柑 函 数 ， 聚 合 函数 ， 子 查询 和 比较 操作 符 等 。 

(7) 在 数据 仓库 中 ， 我 们 将 经 常 使 用 分 区 表 。 

(8) 在 Impala 1.2 或 者 更 高 版 本 中 ， 我 们 可 以 通过 UDFs、 执 行 自 定义 的 比较 和 转换 逻辑 。 


3.2.2 Impala 编程 接口 概述 
可 以 通过 如 下 方式 向 Impala 提交 请 求 : 


e@ impala-shell 交互 式 命令 行 

e Apache Hue 基于 web 的 用 户 接口 
® JDBC 

® ODBC 


通过 以 上 各 种 方式 ， 我 们 可 以 在 异 构 环境 中 使 用 Impala, 通过 JDBC 或 ODBC 将 应 用 运行 在 
非 Linux 平台 上 ， 也 可 以 通过 JDBC 或 ODBC 接口 将 Impala 集成 在 不 同 的 BI 工具 中 。 
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每 个 impalad 进程 运行 在 集群 中 不 同 的 物理 节点 上 ， 通 过 端口 监听 发 送 过 来 的 请 求 。 来 自 
impala-shell 和 Hue 的 请 求 将 被 路 由 到 impalad 进程 的 同一 端口 。Impalad 进程 也 通过 不 同 的 端口 
监听 JDBC 或 ODBC 请 求 。 


3 . 3 与 Hadoop 生态 系统 集成 


Impala 可 以 使 用 Hadoop 生态 系统 内 的 许多 熟悉 的 组 件 。 Impala 可 以 与 其 他 Hadoop 组 件 交 换 
数据 ， 它 既 可 以 作为 生产 者 也 可 以 作为 消费 者 ， 以 非常 灵活 的 方式 在 ETL 或 ELT 过 程 中 使 用 。 


lbas Bsnenisor) 


3.3.1 与 Hive 集成 


Impala 一 个 主要 的 目标 就 是 让 Hadoop 上 的 SQL 操作 更 加 快速 ， 高 效 到 能 够 吸引 其 他 在 
Hadoop 上 运行 SQL 的 用 户 。 比 如 : 它 就 是 对 于 在 Hadoop 上 运行 Hive 执行 长 时 间 运 行 ， 面 向 批 
处 理 SQL 查询 的 用 户 的 福音 。 

Impala 使 用 传统 的 MYSQL 或 Postgresql 作为 元 数据 库存 储 表 定义 信息 ，Hive 也 是 使 用 同样 
的 方式 保存 元 数据 。 只 要 Hive 使 用 的 是 Impala 支持 的 数据 类 型 ， 文 件 格式 或 者 压缩 方式 ，Impala 
都 可 以 直接 访问 。 这 意味 着 impala 可 以 使 用 SELECT 读 取 不 同类 型 的 数据 , 然后 使 用 NSERT 语 
句 进行 数据 加 载 。Impala 可 支持 的 数据 类 型 包括 Avro、RCFile 或 SequeceFile 等 格式 ， 当 然 我 们 
也 可 以 使 用 Hive 加 载 这 些 类 型 的 数据 。 

Impala 查询 优化 器 可 使 用 表 统计 信息 和 列 统计 信息 。 在 Hive 中 ， 我 们 可 以 通过 ANALYZE 
TABLE 语句 搜集 这 些 信息 。 在 Impala 1.2.2 或 者 更 高 版 本 中 ,可 以 使 用 COMPUTE STATS 语句 替 
换 上 述 语 句 。COMPUTE STATS 需要 更 少 的 设置 ， 更 可 靠 ， 更 快 ， 而 且 不 需要 再 impala-shell 和 
Hive shell 之 前 切换 的 开销 。 


3.3.2 与 HDFS 集成 
Impala 使 用 分 布 式 的 文件 系统 HDFS 作为 主要 的 数据 存储 方式 。Impala 依赖 于 HDFS 的 宛 余 
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机 制 来 避免 节点 的 硬件 或 者 网 络 故障 。Impala 表 的 数据 以 文件 的 形式 存储 在 HDFS 中 ， 存 储 时 我 
们 可 以 使 用 熟悉 的 HDFS 文件 格式 和 压缩 格式 。 对 于 一 个 新 的 表 ，Impala 将 读 取 表 定义 中 指定 的 
目录 中 的 所 有 文件 作为 数据 。 当 由 Impala 向 表 中 添加 的 数据 时 ， 在 相应 的 目录 中 Impala 将 自动 
生成 新 的 数据 文件 。 


3.3.3 使 用 HBase 


HBase 是 奉 代 HDFS 作为 Impala 的 数据 存储 的 另 一 种 方式 。 它 是 构建 与 HDFS 项 层 的 一 个 数 
据 库存 储 系统 , 但 是 它 不 支持 SQL 语句 。 许 多 Hadoop 使 用 者 使 用 HBase 作为 海量 数据 存储 使 用 。 
通过 在 Impala 中 定义 到 HBase 表 的 映射 关系 ， 我 们 可 以 实现 通过 Impala 查询 HBase 中 的 数据 ， 
甚至 可 以 实现 Impala 和 HBase 表 的 连接 查询 。 


54 


Cloudera Impala 使 用 SQL 作为 查询 语言 。 为 了 最 大 限度 上 防止 用 户 在 开发 技能 上 的 重复 投入 ， 


Impala 保持 了 与 HiveQL 高 度 兼容 性 : 
e@ 因为 Impala 与 Hive 使 用 同样 的 元 数据 记录 关于 表 结 构 和 属性 的 信息 ，Impala 可 以 访问 通 
过 Impala 的 CREATE TABLE 语句 创建 的 表 ， 也 可 以 访问 使 用 Hive DDL 定义 的 表 。 
e@ Impala 支持 与 HiveQL 类 似 的 DML 语句 。 
e Impala 提供 很 多 与 HiveQL 具有 相同 名 称 和 参数 类 型 的 内 广 函 数 。 


Impala 支持 大 多 数 的 HiveQL 的 语句 和 语法 , 包括 但 不 限于 JOIN、AGGREGATE、DISTINCT、 
UNION ALL.、 ORDER BY 、LIMIT 及 非 关 联 子 查询 等 。Impala 也 支持 NSERT INTO 和 INSERT 
OVERWRITE 语句 。 

Impala 支持 与 Hive 数据 类 型 完全 相同 名 称 和 语义 的 数据 类 型 ， 包 括 : STRING、TINYINT、 
SMALLINT、INT、BIGINT、FLOAT、DOUBLE、BOOLEAN、TIMESTAMP。 大 多 数 的 HiveQL 
的 SELECT 和 INSERT 语句 可 以 不 做 修改 在 Impala 上 直接 运行 。 


4.1 注释 


Impala 有 两 种 格式 的 SQL 注释 方法 。 
1. 注释 符号 “-” 


该 符号 到 行 尾 所 有 的 内 容 将 被 作为 注释 忽略 。 这 种 类 型 的 注释 只 对 单行 有 效 。 注 释 可 以 独立 
成 行 ， 或 者 作为 SQL 语句 的 一 部 分 。 
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2. 注释 符号 “六 
在 “和 # … 拟 ”内 部 的 内 容 将 被 作为 注释 忽略 。 这 种 类 型 的 注释 可 以 跨 多 行 生效 。 注 释 可 以 单 
独占 用 一 行 或 多 行 ， 可 在 SQL 语句 任何 位 置 出 现 。 


候 . 2 数据 类 型 


4.2.1 BIGINT 

8 字 节 的 整形 数据 类 型 ， 可 以 在 CREATE TABLE 和 ALTER TABLE 语句 中 使 用 。 

范围 ，-9223372036854775808~9223372036854775807， 没 有 UNSIGNED 子 类 型 。 

转换 ，Impala 自动 转换 为 单 精度 或 双 精 度 浮 点 类 型 。 使 用 CASTO 可 以 转换 成 TINYINIT、 
SMALLINT、INT、STRING 或 TIMESTAMP。 将 整数 值 N 转换 成 TIMESTAMP 将 会 产生 一 个 
时 间 戳 ， 该 时 间 戳 记录 了 从 1970 年 1 月 1 号 开始 经 过 N 秒 之 后 的 时 间 。 
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4.2.2 BOOLEAN 

布尔 数据 类 型 可 以 使 用 在 CREATE TABLE 和 ALTER TABLE 语句 中 。 可 以 为 TRUE 或 者 
FALSE。 

范围 ， TRUE 或 FALSE.。 在 TRUE 或 FALSE 外 面 不 要 使 用 引号 。 我 们 可 以 将 TRUE 或 FALSE 
写成 大 写 、 小 写 ， 或 者 大 小 写 混合 。 从 表 中 查询 返回 的 布尔 型 总 是 返回 小 写 的 te 或 者 false。 

转换 ， Impala 不 会 自动 将 其 他 任何 类 型 转换 为 布尔 型 。 我 们 可 以 使 用 CASTO 强 制 将 一 个 整 
数 或 者 浮 点 数 转换 成 布尔 型 。 值 0 被 转换 为 false， 其 他 任何 非 0 值 被 转换 为 tue。 我 们 不 能 将 一 
个 字符 串 类 型 转换 为 布尔 型 。 即 使 我 们 可 以 将 布尔 型 强制 转换 为 String 类 型 ， 对 于 tmue 值 将 返 
字符 串 “1”， 对 于 false 值 将 返回 字符 串 “0"。 


加 


开源 大 数据 分 析 引擎 Impala 实战 】 


4.2.3 DOUBLE 

8 字 节 的 双 精 度 浮 点 类 型 ， 可 以 被 使 用 在 CREATE TABLE 和 ALTER TABLE 中 。 

范围 ，4.94065645841246544e-324 ~1.79769313486231570e+308， 正 数 或 负数 。 

转换 ， Impala 不 会 自动 将 双 精 度 浮 点 数 转换 成 任何 类 型 。 但 是 我 们 可 以 使 用 CASTO 将 双 精 
度 浮 点 型 转换 为 FLOAT、TINYINT、SMALLINT、INT、BIGINT、STRING、TIMESTAMP 或 
BOOLEAN。 我 们 可 以 使 用 对 数 计数 法 将 DOUBLE 型 转换 成 STRING 型 。 例 如 : 可 以 用 1.0e6 代 
表 一 百 万 。 

DOUBLE 还 有 一 个 别名 叫做 REAL。 
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4.2.4 FLOAT 

4 字 节 单 精度 浮 点 型 ， 可 以 使 用 在 CREATE TABLE 和 ALTER TABLE 中 。 

范围 ，1.40129846432481707e-45 .. 3.40282346638528860e+38， 正 数 或 者 负数 。 

转换 ，Impala 自动 转换 FLOAT 为 精度 更 好 的 DOUBLE 型 ， 但 是 不 会 被 自动 转换 为 其 他 任何 
类 型 。 我 们 可 以 使 用 CASTO 将 FLOAT 型 转换 为 TINYINT、 SMALLINT、 INT、BIGINT、 
STRING、 TIMESTAMP 或 BOOLEAN。 我 们 可 以 使 用 对 数 计数 法 将 FLOAT 型 转换 成 STRING 
型 。 例 如 : 可 以 用 1.0e6 代表 一 百 万 。 


4.2.5 INT 

4 字 节 整形 数据 类 型 ， 可 以 被 使 用 在 CREATE TABLE 或 ALTER TABLE 语句 中 。 

范围 ， -2147483648 .. 2147483647， 没 有 UNSIGNED 子 类 型 。 

转换 ，Impala 自动 转换 一 个 INT 型 无 法 表示 的 更 大 的 整数 位 BIGINT 型 ，FLOAT 型 或 者 
DOUBLE 型 。 我 们 可 以 使 用 CASTO 将 INT 型 转换 为 TINYINT、SMALLINT、STRING、 
TIMESTAMP 型 ,将 整数 值 N 转换 成 TIMESTAMP 将 会 产生 一 个 时 间 戳 , 该 时 间 戳 记录 了 从 1970 
年 1 月 1 号 开始 经 过 N 秒 之 后 的 时 间 。 

INT 类 型 的 别名 为 INTEGER 。 


a 
Ee 
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4.2.6 REAL 

REAL 是 DOUBLE 类 型 的 别名 。 

以 下 示例 显示 我 们 可 以 分 别 使 用 REAL 或 DOUBLE 型 ， 但 是 最 终 Impala 会 将 它们 统一 作为 
DOUBLE 型 对 待 : 


4.2.7 SMALLINT 
2 字 节 的 整 型 数据 类 型 ， 可 以 在 CREATE TABLE 和 ALTER TABLE 语句 中 使 用 。 
范围 ，-32768 ..32767， 无 UNSIGNED 子 类 型 。 
转换 ，Impala 自动 转换 为 INT、BIGINT 或 浮 点 类 型 。 使 用 CASTO 可 以 转换 为 TINYINT、 
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STRING、TIMESTAMP。 将 整数 值 N 转换 成 TIMESTAMP 将 会 产生 一 个 时 间 戳 ， 该 时 间 戳 记录 
了 从 1970 年 1 月 1 号 开始 经 过 NN 秒 之 后 的 时 间 。 


4.2.8 STRING 

该 数据 类 型 可 以 被 用 于 CREATE TABLE 和 ALTER TABLE 语句 中 。 

长 度 : 32767 字 节 。 当 声明 STRING 列 时 ， 不 能 像 声明 VARCHAR、CHAR 或 其 他 关系 型 数 
据 库 列 类 型 一 样 使 用 长 度 限制 。 

字符 集 : 为 了 实现 对 Impala 子 系统 的 完全 支持 ， 需 要 限制 STRING 的 值 为 ASCII 字符 集 。 
UTF-8 字符 数据 可 以 被 Impala 存储 , 也 可 以 通过 查询 正常 获取 数据 。 但 是 由 于 UTF-8 字符 串 包含 
非 ASCII 字符 ， 所 以 不 能 保证 它 可 以 和 字符 串 操作 函数 ， 比 较 运 算 符 或 者 ORDER BY 语句 正常 
王 作 。 

对 于 像 ISO-8859-1 或 ISO-8859-2 这 种 扩展 了 ASCII 字符 集 的 国家 字符 集 ，Impala 在 表 定 义 
中 无 法 包含 这 些 字符 集 元 数据 。 如 果 我 们 需要 针对 这 些 使 用 了 国家 字符 集 的 字符 数据 进行 排序 ， 
操作 或 者 显示 ， 我 们 只 能 在 应 用 端 自己 实现 。 

转换 ，Impala 不 会 自动 将 STRING 数据 转换 成 任何 数字 类 型 。 如 果 STRING 数据 使 用 了 与 
TIMESTAMP 匹配 的 格式 ，Impala 可 以 自动 将 STRING 转换 为 TIMESTAMP 类 型 。 

我 们 可 以 使 用 CASTO 将 STRING 类 型 转换 为 TINYINT、SMALLINT、INT、 BIGINT、 FLOAT、 
DOUBLE 或 TIMESTAMP。 

我 们 不 能 直接 将 STRING 类 型 强制 转换 为 BOOLEAN 类 型 ， 但 是 可 是 使 用 CASE 表达 式 针 
对 不 同 的 STRING 数据 返回 TRUE 或 FALSE。 

我 们 可 以 强制 将 BOOLEAN 类 型 转换 为 STRING 类 型 。 对 于 TRUE 返回 STRING“1”,， 对 于 
FLASE 返回 STRING “0’。 
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4.2.9 TIMESTAMP 
TIMESTAMP 它 可 以 被 使 用 在 CREATE TABLE 或 ALTER TABLE 语句 中 ,表示 某 一 个 时 间 

范围 : 在 底层 ， 时 间 截 的 精度 为 纳 秒 。 

INTERVAL 表达 式 : 

通过 使 用 INTERVAL 关键 字 ，+ - 操作 符 或 者 date_add() date_sub0) 函 数 ， 我 们 可 以 实现 针 
对 日 期 型 数据 某 个 时 间 单 元 的 数学 运算 。 我 们 可 以 指定 的 时 间 单 元 包括 : YEAR[S]、MONTHI[S]、 
WEEK[S] 、 DAY[S]、 HOUR[S] MINUTEIS] 、 SECONDI[IS] 、 MILLISECONDI[S]、 
MICROSECOND[S] 和 NANOSECONDI[S]. 我 们 可 以 在 INTERVAL 表达 式 中 指定 某 一 个 时 间 单 
元 ， 比 如 : INTERVAL 3 DAYS 或 INTERVAL 25 HOURS， 也 可 以 将 不 同 的 时 间 单 元 组 合 在 一 
起 使 用 ， 比 如 : timestamp_value + INTERVAL 3 WEEKS - INTERVAL 1 DAY + INTERVAL 10 
MICROSECONDS 。 


示例 : 
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时 区 : 

为 了 避免 无 法 预期 的 结果 ，Impala 使 用 GMT 时 间 ， 而 不 使 用 本 地 时 区 存储 时 间 戳 。 

转换 : 

Impala 可 以 自动 将 格式 匹配 的 STRING 类 型 转换 为 TIMESTAMP 类 型 .TIMESTAMP 可 以 接 
受 的 格式 为 YYYYMM-DD HH:MM:SS.sssssssss ， 其 中 可 以 只 包含 日 期 , 或 者 只 包含 时 间 ， 秒 后 
面 的 精度 为 可 选项 。 比 如 ， 我 们 可 以 指定 一 个 时 间 戳 为 '1966-07-30,，'08:30:00',， 或 '1985-09-25 
17:45:30.005'。 我 们 也 可 以 强制 将 一 个 整数 或 者 浮 点 数 N 转换 为 TIMESTAMP 类 型 , 它 代 表 自 1970 
年 1 月 1 号 经 过 N 秒 后 对 应 的 时 间 。 

分 区 : 

我 们 无 法 使 用 TIMESTAMP 列 作为 一 个 分 区 键 , 但 是 可 以 从 TIMESTAMP 中 抽取 年 月、 日 、 
时 等 具体 的 值 作为 分 区 键 ， 因 为 分 区 列 的 值 将 在 HDFS 上 作为 目录 名 称 ， 而 不 是 包含 在 数据 文件 
中 的 字段 。 通过 以 上 方式 ,我们 仍然 可 以 保存 原始 的 TIMESTAMP 值 ， 而 不 必 额 外 的 复制 一 份 数 
据 浪 费 存 储 空间 。 


示例 : 
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4.2.10 TINYINT 

1 字 节 的 整 型 数据 类 型 ， 可 以 使 用 在 CREATE TABLE 或 ALTER TABLE 语句 中 。 

范围 : -128~127 ， 没 有 UNSIGNED 子 类 型 。 

转换 :Impala 自动 将 一 个 大 的 整 型 数据 转换 为 SMALLINT INT BIGINT 或 浮 点 型 (FLOAT 
或 DOUBLE)。 我 们 可 以 使 用 CASTO 将 TINYINT 类 型 强制 转换 为 STRING 类 型 或 TIMESTAMP 
类 型 。 将 整数 值 N 转换 成 TIMESTAMP 将 会 产生 一 个 时 间 戳 ， 该 时 间 戳 记录 了 从 1970 年 1 月 1 
号 开始 经 过 N 秒 之 后 的 时 间 。 


4.3 常生 


Impala 中 每 种 数据 类 型 都 有 标记 表示 常量 的 方法 。 我 们 可 以 在 像 SELECT 后 面 的 选择 列表 、 
WHERE 子 查询 或 者 函数 调用 中 的 参数 等 类 似 的 SQL 中 使 用 常量 。 


4.3.1 数值 常量 


为 了 表示 整 型 数据 类 型 (TINYINT、SMALLINT、INT、BIGINT) 的 常量 ， 我 们 可 以 使 用 一 
个 数字 的 序列 表示 。 这 个 数字 序列 的 首位 可 以 为 0， 但 是 首位 的 0 总 是 会 被 忽略 。 
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为 了 表示 浮 点 型 数据 类 型 (FLOAT、DOUBLE)， 我 们 可 以 使 用 包含 数 点 “.” 的 数字 序列 。 
根据 常量 在 SQL 的 上 下 文 环 境 ， 整 型 常量 可 以 升级 为 浮 点 型 常量 。 对 于 指数 常量 ， 我 们 可 以 使 用 
包含 字符 “e” 的 数字 序列 表示 。 例 如 : 1e6 表示 的 是 10 的 6 次 方 ， 也 就 是 1000000。 一 个 指数 的 
常量 默认 会 被 Impala 解释 为 浮 点 型 。 


4.3.2 ”字符 串 常 量 


字符 串 常 量 使 用 单 引号 或 者 双 引 号 引用 。 为 了 在 字符 常量 中 表示 单 引 号 ， 我 们 需要 用 双 引号 
来 引用 这 段 字符 。 同 样 的 ， 为 了 在 字符 常量 中 表示 双 引 号 ， 我 们 需要 用 单 引 号 来 引用 这 段 字 符 。 
为 了 在 字符 串 常 量 中 表示 特殊 字符 ， 需 要 在 转 义 字符 前 使 用 反 斜 杠 “\”: 


Wt 表示 制 表 符 。 

\n 表示 换行 。 在 impala-shell 中 输出 时 会 另 起 一 行 。 

表示 回 车 (从 当前 位 置 移 至 本 行 开头 ) 。 在 impala-shell 中 输出 时 可 能 会 由 于 某 些 内 容 
被 覆盖 而 使 格式 混乱 。 

\b 表示 退 格 。 在 impala-shell 中 输出 时 可 能 会 由 于 某 些 内 容 被 履 盖 而 使 格式 混乱 。 

\0 表示 ASCII 码 的 nul 字符 (不 同 于 SQL 中 的 NULL )。 在 impala-shell 中 输出 时 不 可 见 。 

这 表示 DOS 文件 结束 符 。 在 impala-shell 中 输出 时 不 可 见 。 

\%、\ 字符 串 经 LIKE 操作 符 进行 类 似 查找 时 用 来 做 转 义 通配符 。 

\ 后 面 用 三 个 八进制 数字 ， 代 表 一 个 ASCII 码 的 字符 。 例 如 :  \101 表示 的 是 ASCII 码 的 
65， 对 应 的 字符 就 是 “A'。 

e@ \ 两 个 反 斜 杠 阻 止 转 义 字符 进行 转 义 。 


如 果 在 使 用 引号 引用 的 字符 串 常量 内 包含 引号 字符 ， 需 要 使 用 反 斜 杠 进行 转 义 。 
如 果 在 \ 后 面 的 字符 不 是 上 述 的 转 义 字符 ， 那 么 字符 将 不 会 被 转 义 ， 仅 代表 该 字符 本 身 。 


4.3.3 布尔 常量 


对 于 布尔 值 ， 常 量 为 TRUE 或 者 FALSE， 无 须 使 用 引号 引用 ， 大 小 写 均 可 。 
示例 : 
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4.3.4 时 间 戳 常量 


Impala 可 以 自动 把 格式 正确 的 STRING 常量 转换 为 TIMESTAMP 常量 , TIMESTAMP 可 以 接 
受 的 格式 为 YYYY-MM-DD HH:MM:SS.sssssssss ， 其 中 可 以 只 包含 日 期 , 或 者 只 包含 时 间 ， 秒 后 
面 的 精度 为 可 选项 。 比 如 ， 我 们 可 以 指定 一 个 时 间 戳 为 '1966-07-30'、 '08:30:00'， 或 '1985-09-25 
17:45:30.005'。 我 们 也 可 以 强制 将 一 个 整数 或 者 浮 点 数 N 转换 为 TIMESTAMP 类 型 , 它 代 表 自 1970 
年 1 月 1 号 经 过 N 秒 后 对 应 的 时 间 。 


4.3.5 NULL 

Impala 中 的 NULL 值 与 其 他 的 数据 库 系统 的 类 似 , 但 不 同 的 数据 库 系统 对 NULL 的 限制 和 行 
为 又 有 所 不 同 。 对 于 大 数据 处 理 来 说 ， NULL 值得 语义 准备 异常 重要 。 任 何 歧义 都 可 能 导致 结果 
不 准确 或 者 数据 格式 错误 , 对 于 大 数据 集 的 结果 校准 或 者 数据 格式 纠正 都 是 相当 耗费 时 间 的 事情 


(1) NULL 值 不 同 于 空 字 符 串 。 空 字符 串 是 ”或 者 *”， 代 表 的 是 在 单 引号 或 者 双 引 号 中 间 什 
么 也 没有 的 字符 串 常 量 。 

(2) 在 一 个 分 隔 符 分 隔 的 文本 文件 中 ，NULL 值 被 表示 为 \N。 

(3) 如 果 我 们 使 用 Impala 向 分 区 表 插 入 数据 时 ， 分 区 列 为 NULL 或 者 空 字符 串 ， 数 据 将 会 
被 写 到 一 个 特殊 的 分 区 里 。 这 个 分 区 专门 用 于 存储 列 为 NULL 的 值 或 者 空 字符 串 。 当 我 们 对 这 些 
值 进 行 查询 的 时 候 ， 无 论 原始 的 值 是 NULL 还 是 空 字符 串 ， 返 回 结果 都 为 NULL。Impala 的 这 种 
行为 是 为 了 兼容 Hive 中 分 区 表 对 NULL 的 处 理 。Hive 不 允许 空 字符 串 作 为 分 区 键 ， 如 果 查 询 返 
回 了 这 样 的 值 ，Hive 将 返回 一 个 字符 串 值 _HIVE_DEFAULT_PARTITION_ 替代 NULL 值 。 
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示例 : 


(4) 不 提供 NOT NULL 语法 定义 一 个 非 NULL 列 。 

(5) 不 提供 DEFAULT 语法 指定 非 空 默认 值 。 

(6) 在 INSERT 插入 数据 时 ， 没 有 指定 的 列 将 默认 插入 NULL 值 。 

(7) 在 Impala 1.2.1 或 者 更 高 版 本 中 使 用 ORDER BY .… ASC 对 列 进行 升序 排序 时 ， 所 有 的 
NULL 值 将 被 排 在 最 后 ， 同 样 的 使 用 ORDER BY ... DESC 对 列 进行 降序 排序 时 ， 所 有 的 NULL 
值 将 被 排 在 结果 集 的 开头 。 事 实 上 ，Impala 认为 NULL 是 比 所 有 其 他 值 更 大 的 值 。 之 前 版 本 的 
Impala 即使 使 用 ORDER BY .… DESC 降序 排序 也 始终 把 NULL 值 放 在 结果 集 的 最 后 。 自 Impala 
1.2.1 开始 ，NULL 新 的 处 理 方式 将 更 好 地 与 其 他 大 部 分 数据 库 保 持 兼 容 。 在 Impala 1.2.1 或 者 更 
高 版 本 中 ， 我 们 也 可 以 在 ORDER BY 语句 后 面 使 用 NULLS FIRST 或 者 NULLS LAST 子 句 改变 
NULL 默认 的 排序 行为 。 

(8) 除了 使 用 ORDER BY 排序 的 情况 ， 当 NULL 值 和 其 他 任何 值 比较 时 都 将 返回 NULL， 
因为 这 样 的 比较 本 来 就 没有 什么 实际 意义 。 例 如 : 10> NULL 将 返回 NULL，10<NULL 会 返回 
NULL，5BETWEEN 1ANDNULL 也 会 返回 NULL。 
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外. 处 sQL 操作 符 


SQL 操作 符 确 切 的 说 是 一 组 比较 函数 ， 被 广泛 使 用 于 SELECT 语句 的 WHERE 子 句 中 。 


4.4.1 _ BETWEEN 操作 符 


在 WHERE 子 负 中， 要 比较 的 表达 式 总 是 有 一 个 上 限 和 下 限 。 比 较 总 是 在 表达 式 大 于 等 于 下 
限 并 且 小 于 等 于 上 限时 匹配 成 功 。 如 果 上 限 值 与 下 限 值 对 换 , 也 就 是 下 限 值 大 于 上 限 值得 情况 下 ， 
比较 将 匹配 不 到 任何 值 。 

语法 : 表达 式 BETWEEN 下 限 值 AND 上 限 值 

数据 类 型 ， 使 用 BETWEEN AND 最 典型 的 情况 是 使 用 数字 类 型 。 实 际 上 ， 我 们 可 以 使 用 任 
何 数据 类 型 , 即使 使 用 BOOLEAN 都 是 可 以 的 (BETWEEN false AND true 将 匹配 所 有 的 布尔 值 )。 
如 果 上 限 值 和 下 限 值 数 据 类 型 不 兼容 ， 需 要 使 用 CASTO 进行 强制 转换 。 如 果 上 限 值 和 下 限 值 只 
是 部 分 不 同 , 我 们 可 以 使 用 字符 串 或 日 期 函数 只 提取 相应 的 部 分 进行 比较 。 当 然 ， 最 理想 的 情况 ， 
还 是 可 以 把 值 转换 成 数字 类 型 进行 比较 。 

注意 事项 ， 当 使 用 短 字 符 串 比较 时 ， 我 们 应 该 特别 注意 。 一 个 比 上 限 值 对 应 的 字符 串 更 长 的 
字符 串 不 会 被 包含 在 BETWEEN AND 中 ， 因 为 Impala 认为 更 长 的 字符 串 总 是 比 短 字 符 串 对 应 的 
值 更 大 。 例如: BETWEEN 'A' and 'M' 将 不 会 匹配 到 字符 串 值 Midway'。 如 果 我 们 在 处 理 字符 串 时 
想得到 预期 的 结果 ， 可 以 使 用 UPPPERO、LOWERO、SUBSTRO、TRIMO 等 函数 协助 处 理 。 


示例 : 


【第 4 章 SQL 语句 


4.4.2 ”比较 操作 符 


Impala 支持 为 了 检查 列 数据 的 等 价 性 及 大 小 顺序 的 比较 操作 符 : 


® =、 !=、 一 : 所 有 数据 类 型 都 可 以 使 用 。 

e <、<=、>、>=: 所 有 数据 类 型 都 可 以 使 用 。 对 于 BOOLEAN 值 ，TRUE 总 是 大 于 FALSE。 

。 IN、BETWEEN: 使 用 IN 或 者 BETWEEN 操作 符 ， 可 以 实现 对 于 等 值 、 大于、 小 于 比较 
等 上 述 符号 表示 更 简单 的 表达 ， 使 用 单个 的 操作 符 就 足够 了 。 

e@ NULL: 对 于 NULL 值 的 比较 也 需要 特别 注意 ，NULL 值 无 论 跟 谁 比较 结果 都 是 NULL， 
如 果 要 判定 一 个 值 是 否 为 NULL 值 ， 需 要 使 用 ISNULL 或 者 IS NOT NULL 操作 符 。 


开源 大 数据 分 析 引 擎 Impala 实战 


4.4.3 IN 操作 符 


IN 操作 符 将 传 入 的 值 与 一 组 值 进行 比较 ， 如 果 能 够 与 其 中 的 任意 一 个 值 匹配 ， 就 会 返 
TRUE。 传 入 的 值 必须 与 给 定 的 这 组 值 具有 兼容 的 数据 类 型 。 

任何 使 用 IN 操作 符 的 表达 式 都 可 以 被 重 写成 使 用 OR 连接 的 一 组 等 值 比较 ， 但 是 使 用 IN 操 
作 符 更 清晰 ， 更 简洁 ， 也 更 容易 被 Impala 优化 器 识别 。 在 对 分 区 表 的 查询 中 ， 我 们 经 常 使 用 IN 
将 分 区 列 与 特定 值 比较 进行 数据 的 过 滤 。 


示例 : 


加 


4.4.4 1IS NULL 操作 符 


IS NULL 操作 符 与 IS NOT NULL 操作 符 正 好 相反 ， 用 来 判断 给 定 的 值 是 否 为 NULL。 因 为 
使 用 NULL 值 与 任何 像 =、!= 的 比较 操作 符 都 会 返回 NULL， 所 以 当 我 们 需要 判定 一 个 值 是 否 为 
NULL 时 ， 需 要 使 用 这 个 操作 符 。 


使 用 注意 点 : 


在 很 多 情况 下 ，NULL 值 的 出 现 意味 着 数据 获取 或 转换 的 过 程 不 正确 或 者 处 理 过 程 不 完整 。 
我 们 可 以 通过 判定 某 列 是 否 为 NULL， 来 确定 是 否 要 对 这 些 数据 进行 后 续 的 某 些 操作 。 

对 于 那些 包含 稀 巩 数据 的 宽 表 , 非 NULL 值 可 能 占 极 少数 ， 而 NULL 值 占 绝 大 多 数 。 如 果 我 
们 要 找到 那些 包含 数据 行 而 不 关注 数据 本 身 是 什么 ， 就 可 以 使 用 IS NOT NULL 操作 符 。 

在 数据 库 中 ， 我 们 经 常 使 用 0、-1、*N/A*、 空 字符 串 等 业务 上 不 存在 的 值 来 表示 NULL， 而 
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我 们 可 以 通过 使 用 NULL 值 以 及 IS NULL、IS NOT NULL 操作 符 来 有 效 地 避免 这 种 自 定义 的 设 
计 。NULL 值 能 够 让 我 们 更 好 地 区 分 0、FALSE 和 空 ， 确 定 未 知 值 之 间 的 不 同 。 


示例 : 


4.4.5 ”LIKE 操作 符 


STRING 数据 的 比较 操作 符 ， 其 中 通配符 ，_ 表 示 匹 配 单个 字符 ，% 表示 匹配 多 个 字符 。 参 
数 表达 式 必须 与 整个 字符 串 相 匹 配 。 一 般 情况 下， 使 用 % 匹 配 字符 串 的 结尾 部 分 效率 更 高 。 


示例 : 


开源 大 数据 分 析 引 擎 Impala 实战 


4.4.6 REGEXP 操作 符 


REGEXP 操作 符 用 来 检查 一 个 值 是 否 与 一 个 正则 表达 式 相 匹配 。 在 POSIX 正则 表达 式 语法 
中 ，^ 用 来 匹配 字符 串 的 开头 ，$ 用 来 匹配 字符 串 的 结尾 ，. 是 用 来 匹配 单个 字符 的 通配符 ，* 是 用 
来 匹配 多 个 字符 串 的 通配符 ，+ 用 来 匹配 前 面 正则 表达 式 的 一 个 或 多 个 实例 ，? 用 来 匹配 前 面 正则 
表达 式 的 零 个 或 一 个 实例 。 

正则 表达 式 必 须 整 值 匹配 , 不 能 只 匹配 其 中 的 某 一 部 分 。 如 果 只 需要 匹配 值 中 间 的 某 一 部 分 ， 
我 们 需要 使 用 .或 者 * 来 表示 这 一 部 分 前 面 和 后 面 的 字符 。 因 此 ， 虽 然 我 们 可 能 已 经 在 表示 式 中 使 
用 了 ^ 或 $ 来 表示 开头 或 者 结尾 ， 但 很 多 时 候 都 是 多 余 的 。 

RLIKE 操作 符 是 REGEXP 的 同义词 。 

当 我 们 需要 使 用 0 匹配 多 个 正则 表达 式 模式 的 时 候 ， 需 要 使 用 | 作为 多 个 操作 符 的 分 隔 符 。 
0 中 的 模式 不 允许 反 向 引用 。 如 果 要 抽取 (中 得 一 部 分 ， 我 们 要 使 用 内 翌 函 数 regexp_extract()。 


示例 : 


另外 ， 也 可 以 使 用 reglike 操作 符 ， 它 是 regexp 的 别名 。 


74 


第 4 章 SQL 语句 


人 入 . 模式 对 象 和 对 象 名 称 


在 Impala 中 ， 我 们 使 用 的 模式 对 象 与 传统 数据 库 用 户 使 用 的 很 相似 ， 包 括 数据 库 ， 表 ， 视 图 
和 函数 。 

在 表 的 概念 中 ， 分 区 也 是 一 种 类 型 的 对 象 。 事 实 上 ， 分 区 是 Impala 非常 重要 的 一 个 主题 。 

不 像 其 他 的 数据 库 系统 ，Impala 没有 表 空间 的 概念 。 默 认 情况 下 ， 一 个 数据 库 ， 表 或 者 分 区 
对 应 的 所 有 的 数据 文件 都 会 存储 在 HDFS 的 某 层 文件 夹 中 。 我 们 也 可 以 为 某 个 表 或 者 分 区 指定 存 
储 在 HDFS 的 什么 位 置 上 。 这 些 对 象 的 原始 数据 通常 是 一 组 数据 文件 ， 我 们 可 以 通过 简单 地 将 这 
组 数据 文件 移动 到 HDFS 上 指定 的 位 置 提高 数据 加 载 的 灵活 性 。 

所 有 关于 模式 对 象 的 信息 都 存储 在 元 数据 库 中 。Impala 和 Hive 的 元 数据 保持 兼容 ， 在 Hive 
中 创建 的 表 可 以 在 Impala 中 使 用 , 反之 亦 然 。 当 Impala 使 用 CREATE、ALTER、 INSERT、 LOAD 
DATA 等 改变 模式 对 象 时 , 所 有 的 元 数据 的 变化 将 会 通过 catalog 服务 把 变化 广播 到 集群 的 每 一 个 
节点 上 。 当 我 们 使 用 Hive 或 者 直接 操作 HDFS 文件 改变 元 数据 定义 时 ， 在 Impala 中 需要 通过 
REFRESH 或 INVALIDATE METADATA 来 更 新 自己 的 元 数据 。 


4.5.1 别名 


当 我 们 在 查询 中 使 用 表 、 列 或 者 列表 达 式 时 ， 可 以 给 它们 指定 别名 。 在 同一 个 语句 中 多 次 引 
用 表 、 列 时 ， 我 们 可 以 不 使 用 它 原始 的 名 称 ， 而 是 使 用 别名 。 通 常情 况 下 ， 我 们 使 用 的 别名 比 原 
始 名 称 更 短 ， 更 直观 。 别 名 放 在 查询 结果 的 头 部 ， 使 查询 结果 更 通俗 易 懂 。 

我 们 可 以 在 SELECT 列表 或 者 FROM 列表 中 的 表 、 列 、 列 表达 式 的 后 面 紧 跟 上 “AS 别名 ” 
的 语法 来 设置 一 个 别名 。 实 际 上 ， 在 原始 的 名 后 面 紧 跟 上 别名 ， 也 是 可 以 的 ，AS 关键 字 是 可 选 
的 。 


示例 : 
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在 大 小 写 不 敏感 的 问题 上 ， 别 名 和 标示 符 遵循 相同 的 规则 。 别 名 可 以 比 标示 符 更 长 〈 最 长 可 
以 是 Java 字符 串 的 最 大 长 度 )， 而 且 别 名 在 使 用 反 引号 引用 时 ， 可 以 包含 空格 、 破 折 号 等 。 
要 让 一 个 表 具 有 不 同 的 名 称 ， 除 了 别名 ， 还 可 以 通过 视图 实现 。 


4.5.2 ”标示 符 


标示 符 指 的 是 我 们 可 以 在 SQL 中 使 用 的 数据 库 、 表 或 者 列 的 名 字 。 标 示 符 的 规则 定义 了 我 们 
可 以 为 创建 的 对 象 指定 什么 样 的 名 称 ， 对 包含 特殊 字符 的 相关 名 称 如 何 表示 及 名 称 大 小 写 是 否 敏 
感 等 。 


。 标示 符 最 小 长 度 为 1 个 字符 。 

e 标示 符 的 最 大 长 度 由 于 元 数据 库 的 限制 ， 为 128 个 字符 。 

e 标示 符 必须 以 字母 字符 开始 ， 剩 下 的 字符 可 以 为 字母 、 数 字 、 下 划 线 的 任何 组 合 。 对 一 个 
合法 的 标示 符 使 用 反 引 号 引用 ， 对 它 的 使 用 没有 影响 。 

e 标示 符 只 能 包含 ASCI[ 字符 。 

日 为 了 使 用 一 个 与 Impala 预 留 关 键 字 匹 配 的 标示 符 ， 需 要 使 用 反 引 号 引用 。 


Impala 标示 符 大 小 写 不 敏感 ， 也 就 是 说 表 Tl 和 表 tl 对 应 的 是 同一 张 表 。 在 底层 ，Impala 总 
是 将 表 或 者 列 名 转换 成 小 写字 符 ， 所 以 查询 输出 的 数据 表 头 都 是 小 写 的 。 


4.5.3 ”数据库 


在 Impala 中 ， 数 据 库 是 一 组 表 的 逻辑 容器 。 每 个 数据 库 定义 一 个 不 同 的 命名 空间 。 在 一 个 数 
据 库 内 部 ， 我 们 可 以 使 用 非 限 定名 称 引 用 表 。 不 同 的 数据 库 可 以 包含 具有 相同 名 称 的 表 。 

创建 数据 库 是 一 个 轻 量 级 的 操作 ， 不 需要 为 数据 库 指定 数据 库 配置 属性 。 因 此 , 没有 ALTER 
DATABASE 命令 。 

一 般 情况 下 ， 为 了 避免 表 的 命名 冲突 ， 为 了 让 表 的 关联 关系 更 清晰 ， 我 们 会 根据 不 同 的 业务 


76 


【 第 4 章 SQL 语句 


或 者 不 同 的 项 目 建立 单独 的 数据 库 。 

每 个 数据 库 物 理 上 存储 在 HDFS 的 一 个 目录 中 。 

当 我 们 最 开始 连接 到 Impala 上 时 默认 情况 下 会 连接 到 一 个 名 称 为 default 的 数据 库 在 default 
库 中 创建 的 表 在 HDFS 上 比 其 他 用 户 创建 的 表 具 有 更 高 的 级 别 。 


4.5.4 表 


表 是 数据 的 主要 容器 。 与 传统 的 数据 库 系统 类 似 ， 表 也 按 行 、 列 分 布 ， 也 具备 传统 数据 库 的 
中 表 的 特性 。 比 如 在 高 端的 数据 仓库 系统 中 经 常会 使 用 表 的 分 区 特性 。 


到 


开源 大 数据 分 析 引 擎 Impala 实战 


逻辑 上 ， 每 个 表 基 于 它 的 列 、 分 区 和 其 他 的 属性 定义 有 一 个 结构 。 
物理 上 ， 每 个 表 与 HDFS 的 一 个 目录 相关 联 。 表 的 数据 包括 在 这 个 目录 下 的 所 有 数据 文件 。 


e@ 内 部 表 : 这 种 表 由 Impala 管理 ， 使 用 Impala 工作 区 指定 的 目录 。 

@ 外 部 表 : 这 种 表 使 用 任意 的 HDFS 目录 作为 数据 存储 ， 目 录 中 的 数据 文件 可 以 被 不 同 的 
Hadoop 组 件 共享 。 

@ 大 表 : 通常 表现 为 分 区 表 ， 数 据 文件 被 分 离 放 在 不 同 的 HDFS 子 目录 中 。 


1. 内 部 表 


通过 CREATE TABLE 语句 创建 的 默认 的 表 类 型 为 内 部 表 。 

Impala 在 HDFS 上 创建 一 个 目录 存放 数据 文件 。 我 们 可 以 通过 impala-shell 使 用 INSERT 语句 
或 者 通过 Hive 使 用 LOAD DATA 语句 向 其 中 加 载 数据 。 当 我 们 执行 了 DROP TABLE 语句 后 ， 
Impala 将 自动 的 删除 所 有 的 数据 文件 。 


2. 外 部 表 


语法 CREATE EXTERNAL TABLE 可 以 创建 一 个 Impala 表 , 这 个 表 的 数据 来 自 正常 的 Impala 
数据 目录 之 外 的 已 经 存在 的 数据 文件 。 当 我 们 在 HDFS 的 某 个 位 置 已 经 有 了 数据 文件 时 ， 使 用 外 
部 表 的 方式 将 节省 了 把 原 有 数据 导入 新 表 的 开销 。 

我 们 可 以 使 用 Impala 查询 表 中 的 数据 。 如 果 我 们 使 用 HDFS 操作 添加 或 者 替换 了 数据 ， 需 要 
在 impala-shell 中 使 用 REFRESH 命令 让 Impala 同步 数据 文件 、 块 位 置 等 元 数据 信息 。 当 我 们 执 
行 DROP TABLE 语句 时 ，Impala 将 删除 表 与 相关 数据 文件 的 关系 ， 但 是 不 会 从 物理 上 删除 数据 
文件 。 我 们 仍然 可 以 在 Hadoop 其 他 组 件 中 使 用 这 些 文件 。 


4.5.5 视图 


视图 是 可 以 作为 别名 查询 的 轻 量 级 的 逻辑 结构 。 我 们 可 以 在 查询 中 使 用 表明 的 位 置 指定 一 个 
视图 名 称 。 视 图 的 作用 如 下 : 


(1) 可 以 是 实现 更 细 粒 度 的 访问 控制 , 用 户 只 能 查询 到 允许 他 看 到 的 列 , 而 不 能 查询 其 他 列 。 
(2) 使 用 简洁 的 语法 完成 复杂 查询 。 
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(3) 通过 向 原始 查询 添加 新 的 语句 、SELECT 列表 表达 式 、 函 数 调用 等 创建 一 个 新 的 更 精确 
的 查询 。 


这 项 技术 让 我 们 对 同一 个 查询 进行 或 多 或 少 的 变化 ， 以 实现 不 同 功能 的 需求 。 
(4) 为 表 、 列 、join 的 结果 集 等 指定 更 直观 的 别名 : 


源 大 数据 分 析 引擎 Impala 实战 】 


(5) 将 表 与 其 他 不 同文 件 格式 ， 不 同 分 区 模式 的 表 交 换 ， 而 无 须 考 虑 数据 复制 及 转换 的 停机 
时 间 。 


章 SQL 语句 


为 了 显示 视图 的 定义 我 们 使 用 DESCRIBE FORMATTED 语 多 它 可 以 显示 原始 的 CREATE 
VIEW 语句 。 


开源 大 数据 分 析 引擎 Impala 实战 前 
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视图 有 如 下 限制 : 


e 不 能 向 Impala 视图 进行 插入 操作 。 在 某 些 数据 库 中 ， 允 许 通 过 视图 向 基 表 插入 数据 ， 但 
Impala 不 支持 该 操作 。 在 INSERT 语 身 右 侧 的 SELECT 子 名 中 可 以 使 用 视图 名 称 。 

@ 如 果 视 图 对 应 的 基 表 为 分 区 表 ， 分 区 修剪 的 优化 操作 将 依赖 于 原始 的 查询 语句 。 如 果 是 针 
对 视图 的 WHERE 条 件 列 中 包含 了 分 区 键 ，Impala 不 会 进行 分 区 修剪 。 


4.5.6 ”函数 


函数 使 我 们 可 以 让 Impala 数据 进行 数学 、 字 符 串 及 其 他 计算 或 者 转换 操作 。 我 们 可 以 在 
SELECT 列表 和 WHERE 子 负 中 使 用 函数 进行 过 滤 操 作 或 者 格式 化 查询 结果 , 这 样 就 避免 了 对 查 
询 结果 在 应 用 侧 的 进一步 处 理 。 


人 外 .人 sQL 语句 


Impal 支持 标准 SQL， 同 时 它 在 大 数据 的 数据 加 载 和 数据 仓库 方面 进行 了 一 些 扩展 。 与 标准 
SQL 语言 一 样 ，Impal 的 SQL 语句 也 分 为 数据 定义 语言 和 数据 操纵 语言 。 

DDL 是 “Data Definition Language” 的 缩写 ， 指 的 是 数据 定义 语言 ， 通 过 它 可 以 改变 数据 库 
模式 的 结构 定义 ，DDL 是 SQL 语句 的 一 个 子 集 。 通 过 DDL 语句 ， 我 们 可 以 创建 、 删 除 、 修 改 数 
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据 库 、 表 、 视 图 等 对 象 定义 。 大 多 数 的 DDL 语句 以 关键 字 CREATE、DROP、ALTER 开头 。 

在 Impala 执行 了 DDL 语句 之 后 ， 和 对 应 的 表 、 列 、 视 图 、 分 区 等 的 元 数据 信息 将 会 自动 的 
被 同步 到 集群 的 所 有 节点 上 。 

如 果 元 数据 更 新 的 时 间 比 较 长 ， 那 么 我 们 可 以 启用 SYNC_DDL 查询 选项 。 启 用 这 个 选项 后 ， 
DDL 语句 会 等 待 所 有 节点 都 收 到 元 数据 变化 后 才 会 执行 。 比 如 ， 如 果 我 们 通过 ROUND-ROBIN 
算法 调度 查询 任务 ， 每 次 将 任务 分 发 到 一 个 不 同 的 Impala 节点 上 时 可 以 启用 这 个 查询 选项 。 

INSERT 语句 在 传统 数据 库 中 一 直 被 认为 是 DML 语句 ， 但 是 在 Impala 中 INSERT 操作 也 会 
引起 元 数据 发 生变 化 ,这 种 变化 时 也 会 像 所 有 的 Impala 节点 广播 -SYNC_DDL 查询 选项 对 INSERT 
引起 的 元 数据 变化 同样 有 效 。 

由 于 SYNC_DDL 查询 选项 会 让 每 个 DDL 操作 消耗 更 多 的 时 间 , 所 以 我 们 建议 只 在 最 后 一 个 
DDL 操作 之 前 使 用 。 如 果 我 们 要 运行 一 组 DDL 操作 的 脚本 ， 从 性 能 上 考虑 ， 我 们 只 需要 在 最 后 
的 CREATE、DROP、ALTER 或 者 INSERT 上 启用 SYNC_DDL 选项 即 可 。 只 有 所 有 的 Impala 节 
点 接收 到 这 些 元 数据 的 变化 ， 脚 本 才 会 执行 结束 。 

Impala 和 Hive 对 DDL、DML 和 其 他 语句 的 分 类 并 不 完全 相同 。Impala 组 织 这 些 语句 的 方式 
跟 传 统 的 关系 型 数据 库 和 数据 仓库 更 为 类 似 。 像 COMPUTE STATS 这 样 修改 元 数据 库 的 语句 , 被 
称 为 DDL 语句 。 像 SHOW、DESCRIBE 这 样 的 只 查询 元 数据 库 的 语句 ， 被 划分 为 单独 的 一 类 。 

DML 是 “Data Manipulation Language” 的 缩写 ， 指 的 是 数据 操纵 语言 ， 是 SQL 语句 的 一 个 
子 集 。 通 常 使 用 DML 语句 修改 表 中 的 数据 。 由 于 Impala 解决 的 是 查询 性 能 的 问题 ， 而 不 是 数据 
操纵 的 问题 ， 而 HDFS 先天 只 支持 追加 操作 ， 所 以 目前 Impala 只 支持 少 部 分 DML 操作 。 

在 Impala 中 , 使 用 单个 语句 进行 大 批量 数据 的 插入 能 够 更 有 效 的 使 用 HDFS 块 。 如 果 我 们 使 
用 INSERT...VALUES 一 次 插入 一 行 或 者 几 行 数据 ， 可 能 将 表 存 储 在 HBase 中 更 有 优势 。 

为 了 模拟 其 他 数据 库 中 的 UPDATE 或 者 DELETE 操作 ,我 们 需要 使 用 INSERT 或 者 CREATE 
TABLE AS SELECT 语句 将 原 有 的 数据 过 滤 ， 转 换 后 复制 到 一 个 新 的 表 中 。 

虽然 Impala 不 支持 UPDATE 语句 ， 但 是 我 们 可 以 通过 将 表 存 储 在 HBase 中 变相 的 实现 
UPDATE 的 功能 。 当 我 们 向 HBase 中 插入 一 行 已 经 存在 该 键 值 的 记录 时 , 原 有 的 记录 将 会 被 隐藏 ， 
效果 和 UPDATE 是 一 样 的 。 


4.6.1 ALTER TABLE 

ALTER TABLE 语句 可 以 用 来 修改 一 个 已 存在 的 表 的 结构 和 属性 。 在 Impala 中 ， 执 行 这 个 语 
名 会 更 新 元 数据 库 中 的 元 数据 表 ， 但 是 不 会 修改 真正 的 数据 文件 。 因 为 我 们 需要 手动 的 执行 对 数 
据 文件 的 操作 ， 比 如 讲 数据 文件 移动 到 不 同 的 HDFS 目录 ， 通 过 重 写 数据 文件 增加 字段 ， 转 换 不 
同 的 文件 格式 等 。 

语句 类 型 ，DDL 

重 命名 表 : 


ALTER TABLE old name RENAME TO new name; 
在 底层 ， 这 个 操作 只 是 修改 了 包含 数据 文件 的 HDFS 目录 名 称 ， 修 改 之 后 原始 的 目录 名 称 就 
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不 存在 了 。 通过 在 表 名 前 面 指定 数据 库 名 , 我 们 可 以 把 一 张 表 从 一 个 数据 库 移动 到 另 一 个 数据 库 。 
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如 果 需 要 改变 Impala 的 表 对 应 的 数据 文件 的 物理 位 置 ， 需 使 用 以 下 语句 : 


我 们 在 hdfs_path_of directory'" 中 指定 的 HDFS 路 径 将 会 自动 被 创建 ，Impala 不 会 在 该 路 径 下 
创建 子 目录 。 同 时 ，Impala 不 会 改变 指定 的 HDFS 目录 中 已 经 存在 的 数据 文件 ， 也 不 会 向 这 个 目 
录 中 移动 任何 文件 。 

如 果 需 要 改变 表 属 性 或 者 存储 属性 ， 需 使 用 以 下 语句 : 


TBLPROPERTIES 主要 是 指定 表 级 别 的 特定 属性 。 

SERDEPROPERTIES 主要 是 通过 Hive 来 实现 对 表 的 读 写 方式 等 元 数据 的 定义 ， 在 Impala 中 
定义 这 个 属性 的 情况 并 不 多 见 。 通 过 这 个 语句 可 以 指定 参数 'serialization.format 或 'field.delim' 来 改 
变 已 存在 的 表 或 分 区 的 分 隔 符 。 


SQL 语句 


通过 DESCRIBE FORMATTED 语句 可 以 查看 表 的 当前 各 属性 值 。 


源 大 数据 分 析 引 擎 Impala 实战 基因 汪汪 


我 可 以 通过 以 下 语句 实现 对 列 的 属性 的 修改 : 
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语句 中 的 column_defs 与 CREATE TABLE 语句 中 的 列 定义 相同 , 包括 列 名 称 列 数据 类 型 ， 
也 可 以 包含 列 的 注释 。 我 们 可 以 一 次 为 一 张 表 添加 多 个 列 。 无 论 添加 单列 或 者 多 列 ， 都 需要 用 括 
弧 将 列 描述 信息 括 起 来 。 当 我 们 替换 一 列 的 时 候 ， 该 列 原 有 的 定义 信息 将 会 彻底 删除 。 如 果 新 增 
的 数据 文件 中 对 应 的 列 发 生 了 变化 ， 或 者 列 数据 类 型 发 生 了 变化 ， 则 需要 使 用 上 述 语句 对 列 的 属 
性 进行 修改 。 如 果 修 改过 得 列 与 原 有 列 的 数据 类 型 不 兼容 ， 则 必须 通过 INSERTOVERWRITE 或 
LOAD DATA OVERWRITE 将 原 有 列 数据 类 型 对 应 的 数据 蔡 换 ， 否 则 将 无 法 对 该 列 正 常 查询 。 

我 们 可 以 通过 CHANGE 语句 重 命名 一 个 列 ， 或 者 修改 一 个 列 的 数据 类 型 。 比 如 将 列 由 
STRING 修改 为 TIMESTAMP， 或 者 从 INT 修改 为 BIGINT。 我 们 每 次 只 能 删除 一 列 ， 如 果 要 想 
删除 多 列 ， 需 要 多 次 运行 ALTER TABLE table_name DROP colume_name 语句 。 如 果 我 们 要 定义 
新 的 列 ， 可 以 使 用 ALTER TABLE ... REPLACE COLUMNS 语句 。 

为 了 改变 Impala 表 底 层 对 应 的 数据 文件 的 文件 格式 ， 我 们 可 以 使 用 如 下 命令 : 


需要 注意 的 是 ， 这 个 语句 只 会 改变 Impala 表 的 元 数据 定义 ， 表 对 应 的 数据 文件 的 文件 格式 的 
转换 需要 使 用 Impala 之 外 的 技术 实现 但 是 通过 Impala 的 INSERT 命令 插入 的 数据 将 自动 会 存储 
为 新 的 文件 格式 。 对 于 TEXTFILE， 我 们 无 法 为 其 指定 分 隔 符 ， 它 必须 使 用 逗号 分 隔 。 

只 有 针对 分 区 表 (使 用 PARTITIONED BY 语句 创建 的 表 )， 我 们 才能 进行 添加 或 者 删除 分 区 
的 操作 。 表 的 分 区 在 HDFS 上 表现 为 以 分 区 键 对 应 的 具体 值 命名 的 目录 。 在 通过 移动 或 者 拷贝 数 
据 文 件 到 对 应 的 目录 的 方式 导入 数据 后 , ALTER TABLE... ADD PARTITION 语句 主要 用 来 实现 表 
分 区 与 数据 文件 的 关联 。 与 之 相反 ，ALTER TABLE... DROP PARTITION 语句 用 来 删除 分 区 和 数 
据 文件 的 这 种 关联 关系 。 比 如 ， 如 果 我 们 只 需要 三 个 月 的 数据 ， 那 么 在 每 个 月 月 初 ， 我 们 都 需要 
删除 三 个 月 之 前 那个 月 的 数据 。 删 除 分 区 操作 可 以 减少 对 应 表 的 元 数据 的 数据 量 ， 加 快 分 区 表 的 
查询 操作 ， 尤 其 对 于 连接 查询 可 以 降低 执行 计划 计算 的 复杂 度 。 添 加 和 删除 分 区 的 示例 如 下 : 


XxX| 
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分 区 键 也 可 以 引用 列 的 任意 常量 表达 式 。 


注意 事项 : 


针对 特定 的 分 区 使 用 ALTER TABLE 语句 时 ， 我 们 必须 包含 表 中 定义 的 所 有 分 区 列 。 

对 于 内 部 表 和 外 部 表 ， 针 对 ALTER TABLE 操作 的 大 部 分 运行 机 制 都 是 一 样 的 。 唯 一 不 同 的 
是 外 部 表 不 会 依赖 于 ALTER TABLE 语句 的 修改 而 改变 或 者 移动 数据 文件 所 在 的 目录 。 

如 果 在 impala-shell 中 使 用 了 负载 均衡 机 制 让 每 一 次 查询 连接 到 不 同 的 Impala 节点 上 ， 我 们 
可 以 使 用 SYNC_DDL 查询 选项 ， 让 每 个 DDL 语句 的 元 数据 变更 同步 到 所 有 Impala 节点 上 后 才 
会 返回 。 


4.6.2 ALTER VIEW 

该 语句 可 以 改变 和 一 个 视图 的 查询 关联 ， 该 视图 关联 的 数据 库 ， 或 者 视图 的 名 称 。 

由 于 视图 是 一 个 逻辑 定义 ， 所 以 ALTER VIEW 语句 只 会 改变 元 数据 ， 而 不 会 改变 HDFS 上 
存放 真正 数据 的 数据 文件 。 


语法 : 


语句 类 型 : DDL 

如 果 在 impala-shell 中 使 用 了 负载 均衡 机 制 让 每 一 次 查询 连接 到 不 同 的 Impala 节点 上 ， 我 们 
可 以 使 用 SYNC_DDL 查询 选项 ， 让 每 个 DDL 语句 的 元 数据 变更 同步 到 所 有 Impala 节点 上 后 才 
会 返回 。 


示例 : 
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如 果 想 看 视图 的 定义 ， 我 们 需要 执行 DESCRIBE FORMATTED 语句 ， 这 样 就 会 显示 出 原始 
的 视图 创建 语句 。 
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4.6.3 COMPUTE STATS 

这 一 语句 完成 对 表 、 分 区 、 列 的 数据 量 和 数据 分 布 信息 搜集 。 搜 集 的 相关 信息 会 被 存储 在 元 
数据 库 中 。 Impala 在 对 查询 进行 优化 时 将 使 用 到 这 些 统计 信息 。 如 果 Impala 知道 是 大 表 还 是 小 表 ， 
每 列 值 的 区 分 度 大 小 ， 将 能 更 好 地 判断 对 于 一 个 JOIN 或 者 INSERT 操作 是 否 进行 并 行 化 操作 。 


语句 类 型 : DDL 

使 用 注意 点 : 

在 早期 , Impala 使 用 Hive 运行 ANALYZE TABLE 语句 生成 的 信息 , 但 是 Hive 生成 的 统计 信 
息 不 可 靠 ,而 且 不 易 使 用 。Impala 的 COMPUTE STATS 语句 基于 底层 编码 ， 大 大 提高 了 可 靠 性 和 
用 户 友好 度 。 COMPUTE STATS 不 需要 特别 的 安装 或 配置 。 不 像 Hive 需要 使 用 单独 的 ANALYZE 
TABLE 语句 分 别 统计 表 和 列 统计 信息 ，Impala 只 需 使 用 一 个 单条 语句 COMPUTE STATS 语句 即 
可 实现 所 有 统计 信息 搜集 。 

基于 HBase 的 考虑 : 

COMPUTE STATS 对 HBase 的 表 也 同样 起 作用 。 搜 集 HBase 表 的 统计 信息 与 搜集 基于 HDFS 
的 Impala 表 的 方式 有 些 不 同 ， 但 是 在 对 HBase 表 进 行 JOIN 时 仍然 可 以 将 这 些 元 数据 信息 用 于 优 
化 查询 。 

基于 性 能 的 考虑 : 

通过 COMPUTE STATS 搜集 统计 的 信息 ,Impala 对 JOIN 查询 和 资源 高 消耗 的 查询 进行 优化 。 
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示例 : 


这 个 例子 中 共 使 用 了 两 张 表 ， 分 别 为 T1，T2。 这 两 张 表 通过 T1.ID 和 T2.PARENT 两 列 具 有 
父子 关联 关系 。T1 表 很 小 ， 但 是 T2 表 有 大 约 10 万 条 记录 。 在 进行 搜集 统计 信息 之 前 ， 统 计 信息 
包括 表 的 物理 信息 ， 比 如 文件 的 个 数 ， 总 大 小 ， 固 定 列 长 等 。 对 于 那些 未 知 的 信息 ， 统 一 用 -1 表 
示 。 在 运行 了 COMPUTE STATS 之 后 ， 通 过 SHOW STATS 可 以 显示 更 多 的 信息 。 如 果 需 要 进行 
一 个 JOIN 查询 ， 那 么 我 们 需要 对 所 有 参与 关联 的 表 搜集 统计 信息 ， 只 有 这 样 才能 保证 JOIN 查询 
可 以 生成 最 高 效 的 执行 计划 。 


F 源 大 数据 分 析 引 擎 Impala 实战 
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基于 文件 格式 的 考虑 : 


COMPUTE STATS 语句 可 以 对 Impala 支持 的 所 有 文件 类 型 的 表 进 行 统计 信息 搜集 。 无 论 是 通 
过 Impala 还 是 Hive 创建 的 表 ， 都 可 以 使 用 该 语句 搜集 。 针 对 不 同文 件 类 型 的 表 ， 限 制 分 别 如 下 ; 
文本 文件 : 针对 这 种 类 型 没有 任何 限制 。 
Parquet 表 : 可 以 正常 使 用 COMPUTE STATS。 
Avro 表 : 需要 表 使 用 SQL 方式 指定 列 名 和 类 型 。 
RCFile 表 : 针对 这 种 类 型 没有 任何 限制 。 
SequenceFile 表 : 针对 这 种 类 型 没有 任何 限制 。 


针对 分 区 表 无 论 是 所 有 分 区 使 用 相同 的 数据 文件 类 型 , 或 者 某 些 分 区 已 使 用 ALTER TABLE 
修改 为 其 他 数据 文件 类 型 ， 都 可 以 使 用 COMPUTE STATS 搜集 统计 信息 。 


4.6.4 CREATE DATABASE 

在 Impala 中 ,数据 库 的 概念 在 逻辑 上 ， 是 在 一 个 单独 的 命名 空间 内 的 相关 表 的 逻辑 结构 体 的 
集合 。 我 们 可 以 针对 某 个 应 用 ， 或 者 业务 含义 类 似 的 一 组 表 使 用 单独 的 数据 存放 ; 在 物理 上 ， 数 
据 库 对 应 的 是 HDFS 上 的 一 个 目录 树 。 表 ， 分 区 ， 数 据 文件 都 存储 在 这 个 目录 中 。 我 们 可 以 通过 
这 个 目录 来 判定 这 个 数据 库 对 空间 的 占用 情况 ， 也 可 以 通过 备份 这 个 目录 来 备份 整个 数据 库 ， 或 
者 通过 DROP DATABASE 来 删除 数据 库 。 


语法 : 
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使 用 注意 点 : 


一 个 数据 库 物 理 上 对 应 与 一 个 HDFS 目录 ， 在 Impala 数据 主 目录 中 ， 有 一 个 扩展 名 为 .db 的 
文件 。 如 果 和 数据 库 关联 的 HDFS 目录 不 存在 ，Impala 将 自动 创建 这 个 目录 。 

在 创建 了 数据 库 之 后 , 可 以 通过 impala-shell 访问 到 它 。 如 果 想 让 自己 创建 的 数据 库 称 为 当前 
数据 库 , 需要 在 命令 行 中 使 用 USE 语句。 在 当前 数据 库 下 访问 数据 库 中 的 表 不 需要 任何 前 级 。 如 
果 通 过 impala-shell 连接 进来 之 后 ， 默 认 使 用 的 数据 库 名 称 为 default。 

在 创建 完 一 个 数据 库 之 后 , 在 执行 该 操作 的 同一 个 节点 的 不 同 impala-shell 中 可 以 直接 访问 到 
该 数据 库 。 但 是 位 于 其 他 节点 的 impala-shell 会 话 在 访问 该 数据 库 之 前 需要 执行 INVALIDATE 
METADATA 操作 。 如 果 不 想 每 次 都 执行 INVALIDATE METADATA 语句 ， 那 么 可 以 在 创建 数据 
库 的 DDL 语句 上 启用 SYNC_DDL 查询 选项 。 


示例 : 


4.6.5 CREATE FUNCTION 
该 语句 用 来 创建 自 定义 的 函数 “UDF)， 这 样 ， 我 们 就 可 以 在 SELECT 或 者 INSERT 中 执行 
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自己 实现 的 逻辑 。 
语法 : 
对 于 针对 每 行 都 要 调用 一 次 的 自 定义 函数 ， 称 为 标量 自 定义 函数 : 


对 于 使 用 多 个 函数 实现 ， 需 要 跨 多 行 计算 的 自 定义 函数 ， 称 为 自 定义 聚集 函数 : 


语句 类 型 : DDL 
最 简单 的 自 定义 函数 就 是 每 次 对 单行 调用 返回 一 行 的 标量 自 定义 函数 。 这 也 是 通常 意义 上 所 


讲 的 UDF。 而 用 户 自 定义 聚集 函数 (UDA ) 与 标量 自 定义 函数 不 同 ， 它 是 对 多 行进 行 调 用 返回 单 
行 结果 。 通 常情 况 下 ，UDA 与 GROUP BY 语句 结合 将 一 个 很 大 的 结果 集聚 合成 一 个 很 小 的 结果 
集 ， 甚 至 对 整个 表 进行 值 汇总 得 到 一 行 记录 。 

通过 使 用 CREATE AGGREGATE FUNTION 语句 创建 UDA。 这 个 语句 包含 INIT_FN， 
UPDATE_FN、MERGE_FN、FINALIZE_FN 和 INERMEDIATE 选项 。 

这 些 *_FN 选项 代表 了 函数 处 理 的 不 同 阶段 : 


e@ 初始化: INIT_FN 指定 的 函数 进行 初始 化 成 员 变 量 类 似 的 初始 化 操作 。 如 果 我 们 省 略 这 个 
选项 ， 将 使 用 默认 的 (no-op ) 函数 。 

e@ 更 新 : UPDATE_FN 指定 的 函数 将 在 执行 GROUP BY 之 前 ， 针 对 原始 结果 集中 的 每 行 调 
用 一 次 。 该 函数 不 同 的 实例 对 GROUP BY 返回 的 不 同 的 值 进 行 调用 。 传 递 给 这 个 函数 的 
最 终 参 数 是 一 个 指向 基于 原始 值 和 第 一 参数 值 的 更 新 值 的 指针 。 

® 合并 : MERGE _FN 指定 的 函数 将 被 调用 任意 次 数 ， 用 于 处 理 在 Impala 并 行 读 取 和 处 理 数 
据 时 不 同 节点 或 不 同 线程 产生 的 中 间 结 果 , 传递 给 这 个 函数 的 最 终 参 数 是 一 个 指向 基于 原 
始 值 和 第 一 参数 值 的 更 新 值 的 指针 。 
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ee 释放 : FINALIZE_FN 指定 的 函数 用 于 释放 UDF 请 求 的 资源 ， 比 如 释放 内 存 ， 关 闭 文件 名 
柄 等 。 如 果 忽 略 这 个 选项 ， 将 使 用 默认 函数 (no-op ) 。 


如 果 我 们 使 用 的 是 与 底层 函数 一 致 的 命名 约定 ，Impala 可 以 自动 确定 依据 第 一 个 子 名 确定 名 
称 。 


使 用 注意 点 : 


(1) 我 们 可 以 使 用 Java 或 C++ 来 编写 UDF。C++ UDF 是 Impala 新 支持 的 , 使 用 C++ 的 UDF 
能 够 充分 使 用 本 地 代码 库 ， 提 高 性 能 。 基 于 Java 的 UDF 同时 兼容 Impala 和 Hive。 这 使 我 们 可 以 
在 Impala 中 重用 Hive 的 UDF。 

(2) UDF 的 函数 体 可 以 是 .so 或 者 jar 文件 。 这 个 文件 必须 存储 在 HDFS 上 , 并 使 用 CREATE 
FUNCTION 语句 将 其 分 发 到 Impala 的 每 一 个 节点 上 。 

(3) 在 SQL 赋值 期 间 ，Impala 将 多 次 调用 底层 代码 ， 处 理 的 结果 集 有 多 少 行 就 调用 多 少 次 。 
所 有 的 UDF 被 认为 是 确定 性 的 ， 也 就 意味 着 只 要 我 们 给 它 传 相同 的 参数 值 ， 它 就 总 是 会 返回 相 
同 的 结果 。 如 果 Impala 知道 从 之 前 的 调用 中 返回 的 结果 值 ， 那 么 Impala 可 能 会 跳 过 这 个 调用 ， 
但 是 也 可 能 会 重新 执行 这 个 调用 。 因 此 在 Impala 查询 执行 过 程 中 ， 对 于 计算 出 得 结果 不 要 依赖 于 
UDF 执行 的 次 数 ， 不 用 基于 像 当 前 时 间 、 随 机 函数 、 外 部 数据 源 是 否 更 新 等 外 部 变化 的 因素 返回 
不 用 的 结果 。 

(4) UDF 的 参数 名 称 包括 他 们 的 数量 、 位 置 和 数据 类 型 。 

(5) 我 们 可 以 使 用 不 同 的 函数 签名 重 载 这 个 函数 。 从 安全 角度 考虑 ， 我 们 不 能 使 用 内 嵌 相 同 
名 称 函 数 的 UDF。 

(6) 在 UDF 代码 中 ， 我 们 可 以 把 函数 返回 值 称 为 一 个 结构 体 。 这 个 结构 体 包含 两 个 字段 ， 
第 一 个 字段 是 布尔 值 ， 用 来 标识 这 个 值 是 否 为 NULL， 第 二 个 值 具有 与 函数 返回 值 相同 的 类 型 。 
当 函 数 返回 值 不 为 NULL 时 ， 将 使 用 第 二 个 值 存放 函数 的 返回 值 。 

(7) Impala 目前 不 支持 ALTER FUNCTION 语句 。 所 以 如 果 想 要 重 命名 函数 ， 将 函数 移动 
到 另 一 个 数据 库 , 或 者 改变 函数 的 签名 或 者 其 他 属性 , 唯一 的 方式 就 是 通过 DROP FUNCTION 语 
句 删 除 当前 的 函数 ， 再 通过 CREATE FUNCTION 重新 创建 函数 。 

(8) UDF 与 一 个 特定 的 数据 库 关联 ， 所 以 在 执行 CREATE FUNCTION 语句 时 ， 需 要 使 用 
USE 语句 指定 当前 数据 库 或 者 直接 以 db_name.function_name 的 方式 指定 函数 对 应 的 数据 库 名 称 。 


4.6.6 CREATE TABLE 
创建 一 个 表 及 指定 表 列 的 语法 如 下 : 
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内 部 表 和 外 部 表 : 


默认 情况 下 ，Impala 创建 的 是 内 部 表 ，Impala 负责 管理 表 底层 的 数据 文件 。 当 我 们 删除 表 的 
时 候 ，Impala 自动 的 删除 对 应 的 物理 文件 。 如 果 我 们 指定 EXTERNAL 子 句 ，Impala 将 创建 一 张 
外 部 表 。 外 部 表 对 应 的 数据 文件 并 非 由 Impala 创建 。 外 部 表 创 建 语句 只 是 将 Impala 的 表 定 义 指 
向 已 存在 的 数据 文件 。 当 我 们 删除 外 部 表 时 ，Impala 不 会 删除 数据 文件 。 

分 区 表 : 

PARTITIONED BY 子 句 依 据 一 列 或 者 多 列 的 值 将 数据 文件 分 开 存放 。Impala 查询 可 以 根据 分 

区 元 数据 只 从 磁盘 读 取 需 要 的 数据 文件 ， 尤 其 对 于 JOIN 查询 ， 将 大 大 减少 网 络 传输 的 数据 量 。 
指定 文件 格式 : 

STORED AS 子 句 指定 底层 存储 的 数据 文件 的 格式 。 目 前 ，Impala 可 以 查询 的 文件 格式 的 类 
型 比 它 可 以 CREATE/INSERT 的 类 型 要 多 。 使 用 Hive 可 以 执行 的 创建 和 数据 加 载 操 作 , 在 Impala 
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中 并 不 支持 。 比 如 : Impala 可 以 创建 基于 SequenceFile 的 表 ， 但 是 不 支持 通过 INSERT 向 其 中 插 
入 数据 。 另 外 ，Impala 还 包含 一 些 过 程 专门 实现 对 不 同类 型 的 文件 格式 进行 压缩 。 

默认 情况 下 ,Impala 使 用 以 CTRL-A 为 分 隔 符 的 文件 作为 默认 文件 格式 .通过 ROW FORMAT 
子 句 可 以 使 用 其 他 字符 作为 列 分 隔 符 或 者 行 结 束 符 。 我 们 常用 的 分 隔 符 ， 如 \t 为 tab 键 ，"m 为 回 
车 键 ，'" 为 换行 键 。 

ESCAPED BY 子 句 可 以 应 用 于 一 个 Impala 创建 的 \ 使 用 INSERT 语句 插入 数据 的 TEXTFILE 
格式 的 表 ， 也 可 以 应 用 于 从 其 他 位 置 直接 拷贝 到 Impala 表 目 录 中 的 数据 文件 。 选 择 一 个 在 文件 中 
从 未 出 现 过 的 字符 作为 转 义 字符 ， 并 把 它 放 在 字段 内 分 隔 符 实例 之 前 。 在 引号 之 内 的 字段 值 不 利 
于 Impala 使 用 内 蔡 分 隔 符 解析 它 ， 引 号 被 认为 是 列 值 的 一 部 分 。 如 果 我 们 想 使 用 \ 作 为 转 义 字符 ， 
那么 在 impala-shell 中 需要 指定 ESCAPED BY \ 子 句 。 


克隆 表 : 


如 果 我 们 需要 创建 与 某 张 表 具有 相同 列 、 相 同 注释 或 者 其 他 属性 的 一 张 表 ， 可 以 使 用 如 下 语 
法 : 


当 我 们 使 用 CREATE TABLE .… LIKE 语法 克隆 一 张 表 的 表 结构 时 新 的 表 使 用 与 原始 表 相同 
的 文件 格式 。 如 果 我 们 想 使 用 不 同 的 文件 格式 存储 ， 需 要 指定 STORED AS 子 句 。 

Impala 不 能 直接 创建 HBase 表 , 但 是 可 以 使 用 CREATE TABLE .… LIKE 语法 克隆 HBase 表 
的 结构 。 克 隆 的 表 将 保留 原始 表 的 文件 格式 和 元 数据 。 

在 Avro 表 上 使 用 CREATE TABLE .… LIKE 语句 时 ， 存 在 一 些 特殊 情况 。 比 如 : 我 们 在 一 个 
无 列 的 Avro 表 上 使 用 CREATE TABLE .…. LIKE 语句 。 一 般 情 况 下 ， 我 们 可 以 先 测试 在 Hive 中 ， 
CREATE TABLE .… LIKE 语句 是 否 可 以 正常 工作 , 如 果 不 能 , 那么 基本 上 也 不 能 在 Impala 中 正常 
使 用 。 

如 果 原 始 表 是 分 区 表 ， 那 么 新 创建 的 表 也 将 继承 同样 的 分 区 列 。 由 于 新 表 是 分 区 表 ， 所 以 不 
会 生成 与 原始 表 同 样 的 真实 的 分 区 。 在 新 表 中 需要 通过 插入 数据 或 者 ALTER TABLE ... ADD 
PARTITION 语句 创建 分 区 。 

由 于 CREATE TABLE .… LIKE 只 是 操作 表 的 元 数据 ， 而 不 是 表 中 存 的 数据 。 如 果 要 往 表 中 
插入 数据 ， 需 要 使 用 INSERT INTO 从 原始 表 中 拷贝 数据 ， 如 果 新 的 表 使 用 了 不 同 的 文件 格式 ， 
拷贝 数据 的 过 程 可 以 完成 对 文件 的 格式 的 转换 。 


使 用 该 语句 可 以 实现 根据 原始 表 的 列 定义 一 张 新 的 表 ， 同 时 将 原始 包 对 应 的 数据 插入 到 这 张 
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新 表 中 。 使 用 这 个 语句 的 优势 在 于 在 创建 表 时 实现 了 数据 的 插入 ， 不 需要 使 用 单独 的 INSERT 语 


句 来 插入 数据 。 这 种 创建 表 的 写法 有 一 个 与 关系 型 数据 库 中 相同 的 缩写 ， 叫 做 “CTAS”。 具体 的 
语法 如 下 : 


新 创建 的 表 将 继承 原始 表 的 列 名 称 。 当 然 ， 我 们 也 可 以 在 SELECT 语句 中 使 用 列 别名 来 替换 
原始 表 的 列 名 。 使 用 这 个 语句 不 会 继承 原始 表 的 表 和 列 的 注释 。 


示例 : 
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作为 CTAS 的 一 个 附件 功能 ， 它 可 以 实现 数据 文件 的 格式 转换 (目前 支持 TEXTFILE、 
PARQUET)。 但 是 我 们 没有 办 法 为 TEXTFILE 表 指定 像 分 隔 符 之 类 的 更 低级 别 的 属性 。 虽 然 我 们 
可 以 对 一 个 分 区 表 使 用 CTAS 语句 ， 但 是 也 无 法 为 新 表 指 定 分 区 的 属性 。 


可 见 性 和 元 数据 : 


我 们 可 以 通过 对 一 个 表 的 TBLPROPERTIES 子 句 指定 元 数据 的 属性 。 这 个 语句 将 一 个 键 值 对 
的 列表 存储 在 元 数据 库 中 。 我 们 也 可 以 通过 ALTER TABLE 语句 修改 表 的 属性 。 目 前 ，Impala 在 
查询 时 不 使 用 TBLPROPERTIES 中 的 数据 。 但 是 如 果 要 执行 与 其 他 的 Hadoop 组 件 进行 交互 DDL 
操作 ， 比 如 创建 Avro 表 或 者 HBase 表 时 ， 就 需要 指定 TBLPROPERTIES 属性 。 

我 们 可 以 通过 对 一 个 表 WITH SERDEPROPERTIES 指定 键 值 对 ， 来 指定 表 的 SerDes 属性 。 
Impala 不 会 使 用 这 些 元 数据 ， 但 是 他 们 将 用 来 构建 支持 的 文件 格式 的 序列 化 和 反 序 列 化 器 。 某 些 
属性 值 是 为 了 与 Hive 在 文件 格式 上 保持 兼容 性 变化 。 

如 果 要 查看 使 用 CREATE TABLE ... LIKE 或 者 CREATE TABLE ... AS SELECT 语句 创建 
的 表 的 列 定义 , 可 以 使 用 DESCRIBE table_name 格式 的 语句 。 如 果 要 了 解 像 数 据 文 件 位 置 , ROW 
FORMAT 或 STORED AS 对 应 的 值 这 些 详细 的 信息 ， 可 以 使 用 DESCRIBE FORMATTED 
table_name。 这 个 语句 还 可 以 看 到 表 的 注释 信息 。 


基于 Hive 考虑 : 
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Impala 查询 可 以 使 用 像 表 的 总 行 数 、 单 列 不 同 值 的 个 数 等 元 数据 信息 。 在 Impala 1.2.2 之 前 ， 
可 以 使 用 Hive 中 的 ANALYZE TABLE 语句 搜集 统计 信息 。 在 Impala 1.2.2 及 更 高 的 版 本 , 不 再 需 
要 通过 Hive 搜集 统计 信息 ， 只 需要 使 用 新 的 COMPUTE STATS 语句 即 可 。 


4.6.7 ”CREATE VIEW 

创建 视图 的 语句 让 我 们 可 以 简写 缩写 一 个 复杂 的 查询 ,如 果 一 个 查询 语句 包括 JOIN、 表 达 式 、 
列 别名 和 其 他 SQL 特性 ， 那么 它 将 让 查询 变 的 难于 理解 和 维护 。 而 创建 视图 ， 正好 可 以 解决 这 个 
问题 。 

由 于 视图 是 一 个 逻辑 结构 体 ， 不 包含 物理 数据 ， 所 以 ALTER VIEW 语句 只 会 改变 元 数据 信 
息 ， 而 不 会 对 HDFS 上 的 数据 文件 进行 任何 操作 。 


语句 类 型 : DDL 
使 用 注意 点 : 
CREATE VIEW 语句 可 以 应 用 在 如 下 场景 : 


(1) 将 复杂 见长 的 SQL 语句 缩写 。 我 们 可 以 通过 应 用 程序 、 脚 本 、 交 互 式 查询 对 视图 执行 简 
单 查询 ， 来 屏蔽 视图 本 身 的 复杂 性 。 


越 是 复杂 难度 的 查询 ， 使 用 视图 简化 查询 的 效果 越 好 。 


(2) 隐藏 底层 的 表 名 和 列 名 。 简 化 由 于 基 表 名 称 变化 带 来 的 维护 成 本 。 如 果 基 表 的 表 名 或 者 
列 名 发 生变 化 我 们 只 需要 使 用 新 的 表 名 或 者 列 名 重建 视图 基于 视图 的 所 有 查询 即 可 正常 运行 。 

(3) 让 优化 过 的 查询 语句 迅速 的 在 所 有 的 应 用 中 起 作用 。 如 果 我 们 发 现 针对 WHERE 条 件 ， 
连接 顺序 ，hints 或 者 其 他 一 些 技术 能 够 让 某 一 类 查询 变 快 ， 我 们 可 以 针对 这 些 优化 过 的 查询 建立 
视图 。 应 用 程序 通过 相对 简单 的 视图 进行 查询 ， 而 不 用 一 遍 一 遍 的 调用 复杂 的 优化 逻辑 。 如 果 我 
们 在 视图 运行 之 后 找到 了 更 好 的 查询 优化 方式 ， 那 么 我 们 只 需要 用 优化 后 的 语句 重建 这 些 视图 ， 
就 可 以 让 应 用 程序 中 所 有 调用 到 这 个 视图 的 查询 速度 变 快 。 

(4) 为 了 简化 某 一 类 查询 语句 ， 尤 其 是 那些 包含 了 多 表 关 联 ， 列 中 包含 了 复杂 表达 式 ,， 或 者 
其 他 SQL 语法 的 复杂 查询 非常 难于 理解 和 调试 。 比 如 : 我 们 可 以 创建 一 个 包含 了 多 表 关 联 ， 
WHERE 过 滤 条 件 以 及 查询 需要 的 相关 列 的 视图 。 有 了 这 样 一 个 视图 ， 应 用 程序 只 需要 对 这 个 视 
图 进行 简单 的 LIMIT、ORDER BY 等 处 理 即 可 得 到 需要 的 结果 。 
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4.6.8 DESCRIBE 
这 个 语句 用 于 显示 表 中 得 列 名 ， 列 数据 类 型 等 元 数据 信息 。 语 法 如 下 : 


这 里 的 DESCRIBE 可 以 简写 成 DESC。 

DESCRIBE FORMATTED 可 以 显示 更 多 的 信息 ， 显 示 的 格式 与 Hive 显示 的 类 似 。 显 示 的 信 
息 包括 表 是 内 部 表 还 是 外 部 表 ， 什 么 时 候 创 建 的 ， 数 据 文件 的 格式 ， 在 HDFS 上 的 位 置 ， 这 个 对 
象 的 类 型 是 表 还 是 视图 等 更 底层 的 信息 。 


使 用 注意 点 : 


在 impalad 进程 重启 之 后 ， 由 于 表 上 的 元 数据 要 在 表 被 查询 之 前 加 载 到 各 节点 上 ， 所 以 表 上 
的 第 一 个 查询 花 的 时 间 要 稍微 长 一 些 。 这 种 针对 每 个 表 会 有 的 一 次 性 的 延迟 ， 会 使 很 多 基准 测试 
的 结果 不 甚 准 确 ， 甚 至 误导 使 用 者 。 为 了 避免 这 种 延迟 的 产生 ， 可 以 对 每 张 表 使 用 DESCRIBE 语 
句 将 其 元 数据 提前 做 缓存 。 

当 我 们 处 理 HDFS 上 的 数据 文件 时 ， 像 Impala 表 数 据 文件 所 在 的 路 径 ，namenode 的 主机 名 
称 等 信息 就 显 的 尤为 重要 。 在 DESCRIBE FORMATTED 输出 中 ， 我 们 可 以 获得 这 些 信 息 。 我 们 
可 以 在 LOAD DATA 或 者 CREATE/ALTER TABLE 的 LOCATION 子 句 中 使 用 HDFS 的 URI 路 径 。 
另外 , 我 们 在 拷贝 、 重 命名 数据 文件 时 , 也 会 在 Linux 操作 系统 命令 中 使 用 到 HDFS 的 URI 路 径 。 

每 个 表 都 包括 表 相 关 的 统计 信息 , 列 相关 的 统计 信息 。 使 用 SHOW TABLE STATS table_name 
和 SHOW COLUMN STATS table_name 可 以 看 到 不 同类 别 的 信息 。 


示例 : 
如 下 示例 显示 了 DESCRIBE 和 DISCRIBE FORMATTED 的 不 同 结果 。 


(1) DESCRIBE 对 于 表 或 者 视图 返回 每 列 的 名 称 、 类 型 、 注 释 。 对 于 视图 ， 如 果 列 值 是 通 
过 表达 式 运 算出 来 的 ， 那 么 列 名 将 会 自动 生成 形 如 _c0、_cl 等 列 名 称 。 

(2) 在 DESCRIBE FORMATTED 输出 中 ， 视 图 的 表 类 型 为 VIRTUAL_VIEW。 因 为 视图 的 
很 多 属性 都 是 继承 基 表 ,所 以 很 多 属性 显示 为 NULL 或 者 空白 .另外 ,在 DESCRIBE FORMATTED 
输出 中 还 可 以 查看 到 视图 的 定义 。 

(3) 使 用 了 CREATE TABLE 不 同 选项 创建 的 表 ， 它 的 DESCRIBE FORMATTED 输出 也 是 
不 同 的 。T2 使 用 CREATE EXTERNAL TABLE 语法 创建 ， 所 以 在 DESCRIBE FORMATTED 的 输 
出 中 包含 了 EXTERNAL _TABLE 关键 字 ， 另 外 InputFormat 和 OutputFormat 字段 表示 了 表 的 输入 
和 输出 的 格式 。 
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4.6.9 DROP DATABASE 
从 系统 中 删除 数据 库 ， 从 HDFS 上 删除 关联 的 *.db 目录 。 为 了 避免 丢失 数据 ， 在 执行 删除 操 
作 之 前 必须 确实 数据 库 是 否 为 空 。 
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语句 类 型 : DDL 
使 用 注意 点 : 


在 删除 数据 库 之 前 , 建议 使 用 DROP TABLE/VIEW 命令 删除 不 需要 的 表 和 视图 , 使 用 ALTER 
TABLE/VIEW 将 需要 保存 的 表 和 视图 移动 到 其 他 数据 库 。 


4.6.10 DROP FUNCTION 
在 Impala 中 包含 UDF 的 SELECT/INSERT 语句 执行 期 间 ， 无 法 对 其 执行 删除 操作 。 
语法 : 
DROP [AGGREGATE] FUNCTION [IF EXISTS] [db name.]function name 


语句 类 型 : DDL 


4.6.11 DROP TABLE 

删除 Impala 表 。 对 于 内 部 表 ， 会 级 联 删除 HDFS 上 的 数据 文件 ， 对 于 外 部 表 ， 不 会 对 数据 文 
件 做 任何 操作 。 

语法 : 

DROP TABLE [IF EXISTS] [db_name.]table_name 

语句 类 型 : DDL 

使 用 注意 点 : 


默认 情况 下 Impala 会 级 联 删除 表 对 应 的 数据 文件 和 HDFS 上 的 目录 , 如 果 我 们 执行 了 DROP 
TABLE， 但 是 数据 文件 没有 被 级 联 删除 ， 可 能 有 以 下 原因 : 


(1) 如 果 表 是 外 部 表 ，Impala 不 会 对 数据 文件 和 目录 做 任何 操作 。 当 数据 隶属 于 Hadoop 的 
其 他 组 件 时 , 我 们 通常 使 用 外 部 表 。 此 时 Impala 只 是 对 存储 在 原 有 位 置 的 数据 文件 进行 查询 操作 。 

(2) Impala 可 能 无 意 保留 下 了 这 些 数据 文件 ， 如 果 在 HDFS 中 没有 可 用 的 位 置 ， 数 据 可 能 
会 被 保存 在 impala 用 户 的 回收 站 中 。 


在 删除 表 时 ， 确 保 我 们 在 正确 的 数据 库 中 。 建 议 删除 表 之 前 先 使 用 USE 语句 切换 当前 数据 
库 ， 或 者 使 用 db_name.table_ name 的 形式 指定 表 名 。 

IF EXISTS 子 名 之后， 无 论 表 是 否 存在 ， 删 除 语句 都 不 会 报错 。 如 果 表 存在 ， 表 将 会 被 删除 ; 
如 果 表 不 存在 ， 这 个 语句 不 产生 任何 影响 。 这 个 子 句 在 执行 标准 的 安装 脚本 ， 删 除 已 经 存在 的 对 
象 或 者 创建 新 对 象 时 非常 有 用 。 通 过 将 IF EXISTS 与 DROP 语句 结合 使 用 ,或 者 将 IF NOT EXISTS 
与 CREATE 语句 结合 使 用 ， 我 们 可 以 让 一 个 脚本 可 以 重复 执行 。 
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4.6.12 DROP VIEW 
删除 使 用 CREATE VIEW 创建 的 指定 的 视图 。 因 为 视图 是 一 个 逻辑 结构 ， 不 包含 任何 物理 数 
据 ， 所 以 删除 视图 操作 只 会 影响 元 数据 库 中 的 元 数据 ，HDFS 上 的 真实 数据 不 会 有 任何 变化 。 
语法 : 
DROP VIEW [database name.]view name 


语句 类 型 : DDL 


4.6.13 EXPLAIN 
该 语句 返回 一 个 语句 的 执行 计划 。 它 从 底层 显示 Impala 如 何 读 取 数 据 ， 如 何在 各 节点 之 间 协 
调 工作 ， 传 输 中 间 结 果 ， 并 获得 最 终结 果 的 全 过 程 。EXPLAIN 后 面 接 一 个 完整 的 SELECT 语句 。 
语法 : 
EXPLAIN { select query | ctas stmt | insert stmt } 


select_query 是 一 个 SELECT 语句 ，insert_stmt 是 一 个 向 表 中 插入 或 者 重 写 数据 的 INSERT 语 
句 ， 具体 可 以 使 用 INSERT .… SELECT 或 者 INSERT .… VALUES 语法 。ctas_stmt 语句 是 一 个 使 用 
了 AS SELECT 子 句 的 CREATE TABLE 语句 。 


使 用 注意 点 : 

根据 执行 计划 ， 我 们 可 以 判断 这 个 语句 的 执行 效率 ， 如 果 发 现 你 效率 过 低 ， 可 以 调整 语句 本 
身 ， 或 者 调整 表 结构 。 例 如 ， 我 们 可 以 通过 改变 WHERE 的 查询 条 件 ， 对 JOIN 查询 使 用 hints， 
引入 子 查询 ， 改 变 表 的 连接 顺序 ， 改 变 表 的 分 区 ， 搜 集 表 及 列 统计 信息 或 者 其 他 的 方式 来 对 语句 
进行 性 能 优化 。 

自 底 向 上 读 取 执 行 计划 : 


(1) 执行 计划 的 最 后 一 部 分 内 容 是 一 些 底层 的 详细 信息 。 这 些 信息 可 以 显示 的 是 像 需 要 被 读 
取 的 数据 量 ， 根 据 这 些 信息 我 们 可 以 判断 分 区 的 策略 是 否 有 效 ， 还 可 以 基于 表 的 总 大 小 及 每 个 节 
点 要 读 取 的 大 小 来 判断 这 个 语句 需要 花费 多 长 时 间 。 

(2) 接 下 来 我 们 可 以 看 到 哪些 操作 被 分 布 到 每 个 Impala 节点 上 并 行 执行 。 

(3) 从 宏观 上 ， 我 们 还 可 以 看 到 中 间 结 果 是 如 何 组 合 起 来 在 节点 之 间 传 输 的 。 


我 们 一 定 要 时 刻 记 住 ，Impala 是 用 来 优化 数据 仓库 中 超大 表 的 全 表 扫 描 的 。 数 据 的 结构 和 分 
布 完全 与 OLTP 系统 不 同 ， 对 一 个 大 表 的 全 表 扫 描 是 常态 操作 。 当 然 ， 我 们 也 可 以 通过 减少 需要 
扫描 的 数据 的 数量 级 来 优化 查询 。 比 如 ， 我 们 只 扫描 查询 中 需要 的 数据 所 在 的 分 区 ， 而 不 是 扫描 
整 张 表 来 将 查询 的 时 间 从 分 钟 级 提高 到 秒 级 。 


扩展 的 EXPLAIN 输出 : 
对 于 复杂 查询 的 性 能 调整 和 容量 规划 ， 我 们 可 以 让 EXPLAIN 语句 输出 更 详细 的 信息 。 在 
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impala-shell 中 ， 执 行 SET EXPLAIN LEVEL=level, 这 里 的 level 可 以 是 0 到 3 的 整数 ， 分 别 代表 
minimal，standard，extended， 和 verbose。 


示例 : 

标准 的 EXPLAIN 输出 从 物理 级 别 到 逻辑 级 别 做 了 完整 的 显示 。 查 询 语句 开始 于 扫描 特定 数 
量 的 数据 ， 每 个 节点 执行 一 个 聚集 操作 在 本 地 节点 执行 count(*) 操 作 生成 中 间 结 果 ;， 中 间 结 果 
被 传输 回 协调 者 节点 )， 最 后 ， 将 中 间 结 果 汇 总 为 最 终结 果 。 


扩展 EXPLAIN 输出 依据 COMPUTE STATS 搜集 的 统计 信息 显示 了 更 为 准确 ， 详 细 的 输出 。 
默认 的 扩展 输出 中 ， 像 数据 大 小 、 分 布 情况 等 信息 都 显示 为 “unavailable”。Impala 可 以 确定 裸 数 
据 文 件 的 大 小 但 是 在 没有 进行 额外 的 分 析 之 前 为 无 法 确定 记录 数 每 列 非 重 复 值 的 个 数 等 信息 。 
COMPUTE STATS 语句 执行 分 析 之 后 ，EXPLAIN 能 够 显示 出 为 优化 查询 提供 帮助 的 更 为 详细 的 
信息 。 
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4.6.14 _ INSERT 
Impala 支持 向 通过 CREATE TABLE 创建 的 表 或 者 通过 Hive 创建 的 表 或 分 区 中 插入 数据 。 
Impala 当前 支持 : 


。 通过 INSERT INTO 向 表 中 添加 数据 。 

@ 通过 INSERT OVERWRITE 替换 表 中 的 数据 。 

从 其 他 表 中 使 用 SELECT 找 贝 数据 。 在 Impala 1.2.1 或 者 更 高 的 版 本 中 ， 我 们 可 以 把 
CREATE TABLE 和 INSERT 语句 简化 为 单个 CREATE TABLE AS SELECT 操作 。 

在 INSERT 之 前 使 用 WITH 子 句 ， 可 以 定义 一 个 SELECT 子 查 询 。 

使 用 带 VALUES 子 句 的 常量 表达 式 可 以 创建 一 行 或 者 多 行 新 记录 。 

通过 INSERT 指定 插入 列 的 名 称 和 顺序 。 

在 INSERT ...SELECT 向 一 个 Parquet 分 区 表 插 入 数据 的 语句 中 ，SELECT 关键 字 之 前 的 
hint 可 以 很 好 的 优化 插入 操作 。 这 个 hint 包括 [SHUFFLE] [NOSHUFFLE]。 由 于 向 Parquet 
分 区 表 插 入 数据 会 引起 同时 向 HDFS 写 多 个 文件 ， 所 以 INSERT 操作 是 一 个 资源 敏感 的 
操作 。 


语句 类 型 ，DML (但 是 仍然 会 影响 SYNC_DDL 选项 ) 


使 用 注意 点 : 


当 我 们 插入 一 个 表达 式 结果 ， 尤 其 是 存在 内 嵌 的 函数 调用 时 ， 插 入 的 数字 列 ( 像 INT、 
SMALLINT、TINYINT、FLOAT 等 ) 需要 使 用 CAST() 表 达 式 将 值 转 成 特定 的 类 型 。Impala 不 会 
自动 的 将 一 个 大 的 值 转换 成 小 值 。 例 如 : 如 果 我 们 要 将 一 个 余弦 值 插入 FLOAT 列 ， 需 要 在 插入 
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语句 中 显示 的 指定 CAST(COS(angle) AS FLOAT)。 

任何 向 Parquet 表 插 入 数据 的 操作 都 需要 HDFS 文件 系统 上 至 少 要 有 一 个 块 大 小 的 空闲 空间 。 
因为 Parquet 数据 文件 默认 使 用 1GB 作为 一 个 块 的 默认 大 小 。 如 果 HDFS 上 没有 至 少 一 个 块 大 小 
的 空闲 空间 ， 将 导致 插入 操作 失败 。 


示例 : 
下 面 的 示例 使 用 同样 的 表 定义 创建 了 不 同 数据 文件 格式 的 新 表 ， 并 向 各 表 中 插入 数据 。 


使 用 INSERT INTO TABLE 语法 ， 可 以 将 数据 添加 到 已 经 存在 数据 的 表 中 。 对 于 那些 有 小 量 
持续 变化 的 数据 ， 或 者 依据 变化 数据 产生 的 批 处 理 结果 ， 使 用 INSERT INTO TABLE 是 最 好 的 插 
入 方式 。 


Ti 
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使 用 INSERT OVERWRITE TABLE 语法 ,每 个 新 插入 的 数据 集 将 会 蔡 换 表 中 已 存在 的 数据 。 
在 数据 仓库 典型 场景 中 ， 我 们 按照 天 、 月 份 、 季 度 加 载 数 据 ， 在 加 载 时 我 们 通常 将 上 一 个 周期 的 
数据 删除 。 有 的 时 候 ， 我 们 可 能 需要 保留 整个 数据 集 ， 然 后 转换 处 理 某 些 数据 做 更 复杂 的 分 析 。 

如 下 示例 中 ， 我 们 通过 INSERT INTO 插入 了 5 条 记录 ， 然 后 使 用 INSERT OVERWRITE 替 
换 的 方式 插入 了 3 条 记录 。 在 最 终 的 插入 之 后 ， 这 个 表 只 包含 3 条 记录 。 


VALUES 语句 可 以 指定 常量 值 向 表 中 插入 一 条 或 者 多 条 记录 。 插 入 时 ， 插 入 的 值 、 类 型 、 表 
达 式 的 顺序 必须 和 表 定 义 严格 一 致 。 
如 下 示例 显示 了 如 何 将 不 同类 型 的 表达 式 、 常 量 、 函 数 返 回 值 插入 表 中 . 
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如 下 示例 显示 了 ， 如 果 尝 试 将 数据 插入 Impala 当前 不 支持 的 数据 格式 的 表 时 ， 将 会 报 “not 
implemented” 错 误 : 


向 分 区 表 中 插入 数据 需要 在 插入 语句 中 指定 分 区 列 : 
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我 们 可 以 将 一 个 表 的 所 有 列 的 数据 拷贝 至 另 一 张 表 。 另 外 ， 我 们 也 可 以 拷贝 一 些 列 ， 或 者 指 
定 列 到 其 他 表 中 。 


并 发 考虑 : 

每 个 INSERT 操作 都 使 用 唯一 名 称 创建 一 个 数据 文件 ， 因 此 我 们 可 以 同时 运行 多 个 INSERT 
INTO 语句 而 不 会 引起 文件 名 冲突 。 在 数据 插入 期 间 ， 数 据 被 临时 存放 在 数据 目录 的 子 目录 中 ， 
在 这 期 间 , 我 们 无 法 在 Hive 中 对 表 执 行 查询 。 如 果 插 入 操作 失败 ， 临 时 的 数据 文件 和 子 目录 不 会 
自动 删除 。 我 们 需要 使 用 hdfs dfs -rm 命令 后 面 跟 上 工作 子 目录 的 全 路 径 , 以 删除 临时 子 目录 和 
文件 。 


VALUES 语法 : 

使 用 VALUES 语法 ， 我 们 可 以 将 带 有 具体 列 值 的 行 插入 到 表 中 。 如 下 示例 说 明 : 
(1) 如 何 插入 单行 记录 。 

(2) 如 何 插入 多 行 记录 。 


(3) 使 用 INSERT OVERWRITE 替换 现 有 内 容 。 
(4) VALUES 中 得 值 可 以 是 常量 ， 函 数 结果 或 者 表达 式 。 


第 4 章 SQL 语句 


使 用 INSERT ... VALUES.… 语 句 时 ， 不 支持 使 用 列 的 子 集 或 者 使 用 与 现 有 列 不 同 的 顺序 。 
VALUES 值 必须 使 用 与 表 定义 相同 的 列 顺序 ， 对 于 不 想 插入 数据 的 列 ， 可 以 指定 为 NULL。 

为 了 在 其 他 的 语句 中 使 用 VALUES 子 句 中 的 值 ， 可 以 将 这 些 值 使 用 AS 语句 作为 一 张 拥有 别 
名 的 表 来 使 用 : 
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我 们 甚至 可 以 根据 例子 中 的 方式 利用 常量 或 者 函数 返回 值 创建 一 张 小 表 用 于 和 其 他 的 表 关 联 
或 者 UNION ALL。 


HBase 的 考虑 : 
我 们 可 以 针对 如 下 HBase 表 使 用 INSERT 语句 : 


(1) 我 们 可 以 使 用 INSERT .… VALUES 语法 向 HBase 表 中 插入 单行 或 者 少量 行 的 记录 。 通 
过 这 种 方式 向 HBase 表 中 插入 数据 是 使 用 Impala 插入 数据 的 最 佳 方式 ， 因 为 插入 到 HBase 中 的 
数据 不 会 因为 插入 少量 的 数据 而 引起 碎片 。 

(2) 我 们 可 以 通过 INSERT...SELECT 语句 向 HBase 表 中 插入 任意 行 数 的 记录 。 

(3) 如 果 我 们 插入 HBase 表 中 的 记录 含有 相同 的 HBase 键 值 ， 那 么 只 有 最 后 插入 的 记录 的 
值 是 对 Impala 可 见 的 。 我 们 也 可 以 根据 这 个 原理 ， 使 用 INSERT .… VALUES 语句 插入 与 原 键 值 
相同 的 记录 完成 对 HBase 中 记录 的 更 新 。 因 为 同样 的 原因 ,我 们 通过 INSERT .…. SELECT 插入 到 
HBase 表 中 的 记录 数 可 能 由 于 键 值 重 复 导致 真正 看 到 的 数据 比 事实 的 记录 数 要 少 。 

(4) 我 们 不 能 使 用 INSERT OVERWRITE 向 HBase 表 中 插入 记录 。 对 于 HBase 表 来 说 ， 新 
的 记录 不 能 覆盖 原 有 记录 ， 只 能 以 增加 的 方式 插入 数据 。 

(5) 当 我 们 创建 映射 到 HBase 的 Impala 或 者 Hive 的 表 时 , 我 们 在 INSERT 中 指定 的 列 的 顺 
序 可 能 和 CREATE TABLE 语句 中 定义 的 不 同 。 在 底层 ，HBase 基于 列 族 的 方式 管理 列 。 这 可 能 
引起 插入 操作 的 不 匹配 ， 尤 其 是 使 用 INSERT INTO hbase _table SELECT * FROM hdfs_table 的 方 
式 插入 数据 时 。 在 插入 数据 之 前 ， 我 们 需要 先 通过 DESCRIBE 语句 查看 表 中 列 的 顺序 ， 根 据 这 个 
顺序 调整 NSERT.… SELECT 中 SELECT 列表 中 的 列 顺序 。 


4.6.15 INVALIDATE METADATA 

该 语句 用 于 将 表 的 元 数据 标记 为 过 期 ,在 一 张 表 通 过 Hive 命令 行 创建 后 , 我 们 执行 该 命令 后 ， 
才能 让 Impala 对 该 表 正 常 访问 。Imapla 在 对 一 个 元 数据 标记 为 过 期 的 表 进 行 查询 之 前 , 会 自动 重 
新 加 载 最 新 的 相关 元 数据 信息 。 同 时 ， 与 REFRESH 相 比 ， 这 个 操作 是 一 个 成 本 极 高 的 操作 ， 
为 REFRESH 是 对 元 数据 进行 增 量 更 新 。 在 一 般 情况 下 ， 比 如 向 已 存在 的 表 添 加 数据 文件 之 类 的 
操作 ， 建 议 优先 选用 REFRESH。 

为 了 准确 的 响应 查询 , Impala 客户 端 必须 能 够 直接 访问 数据 库 和 表 最 新 的 元 数据 信息 。 因 此， 
如 果 Impala 更 新 了 某 些 Impala 和 Hive 共享 的 对 象 的 定义 信息 , 由 Impala 缓存 过 的 原来 的 元 数据 
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信息 必须 被 更 新 为 最 新 的 。 当 然 ， 这 也 并 不 是 说 要 更 新 所 有 的 元 数据 信息 ，Impala 只 会 更 新 需要 
的 元 数据 信息 。 

INVALIDATE METADATA 和 REFRESH 对 比 : 

INVALIDATE METADATA 在 执行 查询 需要 访问 元 数据 信息 时 加 载 相关 表 的 所 有 元 数据 信 
息 。 这 个 操作 尤其 是 对 那些 拥有 很 多 分 区 的 大 表 来 说 ， 成 本 相当 高 。REFRESH 加 载 元 数据 速度 
更 快 ， 因 为 只 加 载 新 增加 的 数据 文件 的 块 位 置 数 据 ， 所 以 成 本 也 相对 较 低 。 如 果 数 据 被 像 HDFS 
balancer 这 样 的 外 部 方式 更 改 ， 使 用 INVALIDATE METADATA 可 以 避免 降低 本 地 读 取 的 性 能 损 
失 。 

INVALIDATE METADATA 语法 如 下 : 


默认 情况 下 ， 缓 存 的 所 有 表 的 元 数据 信息 都 会 被 清除 。 如 果 在 语法 中 指定 了 表 名 ， 那 么 将 会 
清除 指定 表 的 元 数据 信息 。 即 使 是 对 单 张 表 ，INVALIDATE METADATA 也 比 REFRESH 成 本 更 
高 。 在 向 表 中 添加 数据 文件 之 后 ， 优 先 使 用 REFRESH 操作 。 

在 以 下 情况 下 ，impalad 实例 会 请 求 元 数据 更 新 操作 : 

e@ 元 数据 发 生变 化 

@。 其 他 impalad 实例 或 者 Hive 修改 了 元 数据 

e@ Impala shell 或 者 通过 ODBC 方式 修改 了 数据 库 


如 果 在 某 个 节点 上 执行 了 ALTER TABLE、INSERT 或 者 其 他 的 修改 语句 之 后 ,在 同一 个 节点 
上 执行 查询 时 ， 不 需要 进行 元 数据 更 新 操作 。 
数据 库 或 者 表 的 元 数据 修改 包括 : 


e@ 通过 Hive 执行 ALTER、CREATE、DROP 或 INSERT 操作 
e 通过 impalad 执行 CREATE TABLE、ALTER TABLE 或 INSERT 操作 


INVALIDATE METADATA 语句 会 强制 表 的 元 数据 信息 过 期 ， 这 样 ， 在 下 次 表 被 引用 的 时 候 
元 数据 信息 就 会 重新 加 载 。 对 于 一 个 超大 表 进 行 INVALIDATE METADATA 将 会 消耗 大 量 的 时 
间 。 如 果 使 用 REFRESH， 可 能 可 以 避免 不 可 预知 的 延迟 。 

下 面 的 例子 演示 了 可 以 对 一 个 通过 Hive 创建 的 新 的 表 〈SequenceFile 或 HBase 表 ) 使 用 
INVALIDATE METADATA 语句 。 在 INVALIDATE METADATA 语句 执行 之 前 ， 如 果 我 们 想 引用 
一 张 表 ，Impala 可 能 会 报 “table not found” 错 误 。DESCRIBE 语句 将 会 使 更 新 该 表 的 最 新 的 元 数 
据 信息 ， 这 也 会 避免 下 次 对 这 些 表 进行 查询 时 由 于 重新 加 载 元 数据 信息 带 来 的 延迟 。 
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如 果 我 们 启动 mpala-shell 时 要 确保 所 有 访问 的 表 的 元 数据 保持 最 新 需要 再 运行 mpala-shell 
时 使 用 -r， 或 者 -refresh_after_ connect 选项 。 因 为 这 个 选项 为 每 个 查询 增加 了 刷新 元 数据 信息 的 操 
作 ， 对 于 那些 有 很 多 分 区 的 超大 表 或 者 每 天 更 新 数据 的 表 不 建议 使 用 这 个 选项 。 

示例 : 

示例 演示 了 在 Hive 中 创建 一 个 新 的 数据 库 和 一 张 新 的 表 ， 在 Impala 中 使 用 表 全 名 进行 
INVALIDATE METADATA 操作 ， 之 后 可 以 发 现 Impala 就 可 以 识别 新 的 数据 库 和 新 的 表 了 。 这 一 
操作 是 Impala 1.2.4 的 新 功能 ， 在 早期 的 版 本 中 ， 无 法 为 特定 的 表 进行 INVALIDATE METADATA 
操作 。 
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4.6.16 LOAD DATA 

LOAD DATA 语句 通过 将 数据 文件 从 一 个 目录 移动 到 另 一 个 目录 简化 了 对 Impala 表 的 ETL 
过 程 。 

语法 : 


语句 类 型 : 
DML (仍然 影响 SYNC_DDL 选项 ) 
注意 事项 : 


加 载 的 数据 文件 是 被 移动 而 不 是 被 拷贝 到 Impala 数据 目录 的 。 

我 们 可 以 指定 移动 HDFS 路 径 中 的 单个 文件 或 者 所 有 文件 。 我们 无 法 使 用 通配符 只 移动 某 些 
需要 的 文件 。 在 加 载 一 个 目录 下 所 有 的 数据 文件 时 ， 需 要 保证 数据 文件 位 于 该 目录 之 下 ， 而 不 是 
嵌 套 的 子 目 录 之 下 。 

目前 ，Impala 的 LOAD DATA 只 能 从 HDFS 加 载 数 据 文件 ， 而 不 能 从 本 地 文件 系统 加 载 数据 
文件 。 目 前 不 支持 Hive 中 得 LOCAL 关键 字 。 我 们 必须 指定 一 个 路 径 ， 而 不 是 形 如 hdfs:// 的 URI。 

为 了 保证 加 载 的 速度 , 加 载 过 程 对 错误 的 检查 很 有 限 。 如 果 加 载 的 数据 文件 的 文件 格式 错误 ， 
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源 文 件 中 得 列 数 与 目标 表 中 得 列 数 不 一 致 ， 或 者 其 他 类 型 的 不 匹配 问题 ，Impala 在 LOAD DATA 
时 不 会 报 任何 错误 。 但 是 加 载 完毕 之 后 ， 在 对 表 进行 查询 时 ，Impala 会 报 运行 时 错误 或 者 其 他 不 
可 预知 的 错误 。 目前 , Impala 唯一 做 的 检查 就 是 避免 未 压缩 的 文本 文件 和 LZO 方式 压缩 的 文本 文 
件 出 现在 同一 张 表 中 。 

当 我 们 在 LOAD DATA 中 指定 一 个 HDFS 目录 时 ， 目 录 中 得 任何 隐藏 文件 (文件 的 名 字 以 . 
开头 的 文件 ) 将 会 被 忽略 。 

除非 有 命名 冲突 ， 否 则 加 载 到 目标 位 置 的 数据 文件 与 源 数 据 文件 名 称 保持 一 致 。 

通过 LOAD DATA 这 种 方式 将 HDFS 中 的 文件 加 载 到 Impala 中 , 简化 了 加 载 的 过 程 , 同时 我 
们 也 不 必 关 注 表 对 应 的 数据 文件 究竟 是 在 哪个 HDFS 目录 中 , 如 何 分 布 的 , 分 别 对 应 哪个 数据 库 ， 
哪 张 表 。 我 们 可 以 通过 DESCRIBE FORMATTED table_name 语句 , 快速 地 了 解数 据 文件 和 表 的 对 
应 关系 。 

PARTITION 子 句 对 于 增加 新 的 数据 分 区 特别 方便 。 当 我 们 生成 了 按时 间 段 ， 或 者 地 理 位 置 ， 
或 者 其 他 特定 含义 的 新 的 数据 时 ， 可 以 将 数据 直接 加 载 到 Impala 数据 目录 ， 将 其 作为 Impala 的 
一 个 或 者 多 个 分 区 。 对 于 分 区 表 ， 加 载 数据 时 ， 必 须 使 用 常量 值 指定 要 将 数据 加 载 到 那个 分 区 。 


示例 : 
首先 我 们 使 用 一 个 简单 的 shell 脚本 生成 几 个 包含 数字 串 的 文件 ， 将 文件 上 传 到 HDFS 上 。 


然后 ， 我 们 创建 表 ， 并 将 数据 加 载 进去 。 大 家 需要 留意 ， 除 非 指定 了 STORE AS 子 句 ,Impala 
默认 使 用 TEXTFILE 做 默认 的 数据 文件 格式 ， 使 用 Ctd-A〈16 进 制 的 01 ) 作为 分 隔 符 。 本 例 中 
使 用 的 是 只 有 一 个 列 的 表 ， 所 以 分 隔 符 不 太 重要 。 对 于 大 型 的 ETL 作业 , 我 们 需要 使 用 像 Parquet 
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或 者 Avro 这 样 的 数据 文件 格式 ， 并 将 数据 加 载 到 相应 的 文件 格式 的 Impala 表 中 。 


在 数据 加 载 进 表 之 后 ， 通 过 上 例 中 得 最 后 一 条 语句 可 以 看 到 ， 数 据 文件 已 经 被 移动 而 不 是 复 
制 到 了 Impala 数据 目录 中 。 

下 面 的 示例 中 ， 我 们 可 以 看 到 数据 文件 被 移动 到 Impala 数据 目录 中 后 ， 保 持 了 原来 的 数据 文 
件 名称 。 


下 面 的 示例 将 演示 在 INTO TABLE 和 OVERWRITE INTO TABLE 之 间 的 不 同 之 处 。 表 原始 
数据 有 1000 行 。 在 执行 了 带 有 INTO TABLE 子 句 的 LOAD DATA 语句 后 ， 表 中 的 数据 多 了 100 
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行 ， 总 共 1100 行 。 在 执行 了 带 有 OVERWRITE INTO TABLE 子 句 的 LOAD DATA 语句 加 载 了 10 
条 数据 后 ， 原 有 的 数据 丢失 了 ， 表 中 总 共 包 含 10 条 数据 。 
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4.6.17 REFRESH 

为 了 能 够 准确 的 对 数据 进行 查询 ， 我 们 通过 imapla-shell、JDBC 或 者 ODBC 所 连接 到 的 节点 
将 充当 协调 者 节点 ， 它 负责 获取 将 要 查询 的 数据 库 和 表 的 最 新 元 数据 信息 。 

使 用 REFRESH 语句 加 载 最 新 的 元 数据 信息 , 特定 表 的 块 位 置信 息 等 的 操作 适用 于 如 下 场景 


e@ 在 加 载 了 新 的 数据 文件 到 表 对 应 的 HDFS 目录 之 后 。 
e 在 Hive 中 执行 了 ALTER TABLE、INSERT、LOAD DATA 或 者 其 他 对 表 的 修改 的 SQL 
语句 之 后 。 


我 们 只 需要 在 协调 者 节点 上 执行 REFRESH 语句 即 可 。 协 调 者 节点 负责 依据 本 节点 上 的 元 数 
据 信 息 将 任务 分 发 到 集群 所 有 的 Impala 节点 上 ， 而 不 依赖 于 其 他 节点 的 元 数据 信息 。 

REFRESH 负责 从 元 数据 库 中 重新 加 载 表 的 元 数据 信息 ， 而 且 是 增 量 的 加 载 新 的 数据 文件 的 
块 位 置信 息 。 这 是 一 个 可 以 对 单 表 进行 的 低 负载 操作 ， 通 常 在 向 表 添加 了 新 的 数据 文件 之 后 ， 将 
使 用 这 个 命令 更 新 元 数据 信息 。 


REFRESH 语法 : 


这 个 命令 只 更 新 指定 表 的 元 数据 , 这 张 表 不 管 是 Impala 使 用 CREATE TABLE 方式 创建 的 表 ， 
还 是 之 前 使 用 INVALIDATE METADATA 语句 加 载 过 全 量 的 元 数据 信息 ， 都 必须 保证 这 张 表 可 以 
被 Impala 识别 。 

REFRESH 与 INVALIDATE METADATA 的 区 别 已 在 介绍 INVALIDATE METADATA 部 分 提 
及 ， 在 此 不 再 袭 述 。 


示例 : 


这 里 演示 的 是 在 手动 向 Impala 数据 目录 添加 了 数据 文件 之 后 ， 使 用 REFRESH 刷新 元 数据 信 
息 的 例子 。 
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4.6.18 SELECT 
SELECT 语句 执行 查询 , 从 一 张 或 者 多 张 表 获 取 数 据 , 并 返回 由 行列 组 成 的 结果 集 。 在 Impala 
的 INSERT 语句 中 ， 通 常会 包含 一 个 SELECT 语句 用 于 定义 要 从 源 表 中 拷贝 哪些 数据 。 


.Impala 的 SELECT 查询 支持 : 

e SQL 数据 类 型 : BOOLEAN、 TINYINT、SMALLINT.、 INT、 BIGINT、 FLOAT、 DOUBLE、 
TIMESTAMP、 STRING. 

e 在 SELECT 关键 字 前 指定 WITH 子 句 中 可 以 定义 一 个 子 查询 ， 在 SELECT 中 可 以 引用 这 

个 子 查询 。 

DISTINCT 子 句 。 

在 FROM 子 句 中 使 用 子 查询 。 

WHERE、GROUP BY、HAVING 子 句 。 

ORDER BY 在 排序 的 同时 也 可 以 使 用 LIMIT 关键 字 。 

包括 LEFT、RIGHT、SEMI、FULL、OUTER 等 各 种 JOIN 连接 查询 。 在 Impala 1.2.2 及 

以 上 版 本 支持 CROSS JOIN 连接 。 在 性 能 调整 期 间 ， 我 们 可 以 通过 在 SELECT 关键 字 后 

加 STRAIGHT JOIN 履 盖 原 有 的 连接 顺序 。 

UNION ALL。 

LIMIT。 

外 部 表 。 

像 >、<、= 的 关系 操作 符 。 

像 +、- 的 数学 运算 符 。 

逻辑 /布尔 运算 符 AND、OR、NOT 等 ， 但 是 不 支持 && 、||、! 等 。 

像 COUNT、SUM、CAST、LIKE、IN、BETWEEN、COALESCE 等 通用 的 SQL 内 底 函 数 。 
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2. JOIN 
连接 查询 对 两 个 或 者 多 个 表 的 数据 进行 某 种 形式 的 合并 ， 并 返回 包含 特定 要 求 的 结果 集 。 
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3. SQL-92 和 SQL-89 连接 


查询 中 显 式 指定 JOIN 关键 字 的 是 SQL-92 风格 的 JOIN。 使 用 ON 或 者 USING 关键 字 指定 哪 
些 列 作为 连接 键 。 


即使 两 个 表 关 联 列 的 列 名 不 同 ,也 可 以 使 用 ON 关键 字 进行 连接 。 而 USING 是 ON 的 缩写 形 
式 ， 专门 用 在 各 表 关 联 列 具有 相同 名 称 的 情况 下。 当然 ,我 们 也 可 以 不 使 用 USING, ON 关键 字 ， 
直接 使 用 WHERE 条 件 进行 关联 列 的 等 值 比 较 ， 但 是 这 种 书写 方式 会 将 连接 比较 和 过 滤 混 淆 ， 降 
低 了 可 读 性 ， 不 易 维护 。 
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使 用 逗号 分 隐 参 与 连接 的 各 表 或 者 子 查询 的 查询 是 SQL-89 风格 的 JOIN。 在 这 种 查询 中 ， 使 
用 的 就 是 WHERE 条 件 对 关联 列 进行 等 值 比较 。 这 种 语法 很 容易 使 用 ， 但 是 也 很 容易 由 于 删除 某 
些 WHERE 子 句 导致 连接 无 法 正常 工作 。 


4. 自 连 接 


Impala 支持 自 连接 ， 人 允许 对 某 张 表 的 不 同 列 进行 关联 查询 以 展示 数据 之 间 的 父子 关系 或 者 树 
形 结构 。 对 于 自 连接 查询 无 须 显 式 指定 自 连接 关键 字 。 只 要 对 同一 张 表 指定 不 同 的 别名 ， 将 其 作 
为 两 张 表 对 待 进行 连接 即 可 。 


5. 笛 卡 尔 连接 
为 了 避免 由 于 书写 错误 产生 海量 结果 集 ，Impala 不 支持 诸如 下 述 例子 中 得 笛 卡 尔 连接 。 


如 果 我 们 想 实现 笛 卡 尔 乘积 ， 可 以 使 用 CROSS JOIN 作为 连接 操作 符 。 但 是 CROSS JOIN 连 
接 形式 不 支持 ON 子 句 ， 因 为 该 连接 将 对 连接 的 表 的 所 有 行进 行 组 合 。 通 过 这 种 方式 产生 的 结果 
集 仍然 可 以 使 用 WHERE 子 句 进行 过 滤 操 作 。 


6. 内 连接 和 外 连接 

内 连接 是 最 常用 最 熟悉 的 连接 类 型 : 内 连接 的 结果 集 包含 所 有 参与 连接 的 表 中 匹配 的 列 ， 这 
些 列 具有 满足 在 不 同 表 之 间 关 联 列 的 等 值 匹配 。 如 果 参 与 连接 的 表 具 有 相同 的 列 名 ， 则 需要 使 用 
指定 完全 限定 名 或 者 列 别 名 对 该 列 进行 引用 。Impala 的 内 连接 支持 SQL-89 SQL-92 语法 。 


外 连接 从 左手 型 表 ， 或 右手 型 表 ， 或 者 全 外 连接 表 获取 所 有 的 行 数据 。 如 果 外 连接 的 表 中 没 
有 与 其 他 表 关 联 匹 配 的 数据 ， 在 结果 集中 相关 列 会 被 置 为 NULL。 在 一 个 外 连接 查询 中 需要 包含 
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OUTER 关键 字 作为 连接 操作 符 ，OUTER 可 与 LEFT、RIGHT、FULL 配合 使 用 。 


对 于 外 连接 查询 ，Impala 使 用 的 是 SQL-92 语法 ， 也 就 是 说 使 用 JOIN 关键 字 而 不 是 使 用 逗号 
对 参与 关联 的 表 进 行 连接 。Impala 不 支持 (+) 或 者 *= 等 兼容 SQL-89 的 连接 语法 。 


7. 等 值 连 接 和 非 等 值 连 接 


默认 情况 下 ，Impala 对 表 进 行 等 值 连接 查询 。 无 论 是 INNER、OUTER、FULL、SEMI 连接 ， 
都 执行 的 是 等 值 连接 。 

在 Impala 1.2.2 或 者 更 高 版 本 中 ， 可 以 使 用 比较 运算 符 实 现 非 等 值 连接 。 这 种 类 型 的 连接 可 以 
避免 产生 超出 资源 限制 的 超大 结果 集 。 如 果 我 们 执行 的 非 等 值 连接 产生 的 结果 集 大 小 可 以 接受 ， 
那么 我 们 可 以 使 用 CROSS JOIN 操作 符 ， 并 且 在 WHERE 子 句 中 进行 额外 的 比较 操作 。 


8. 半 和 连接 
半 连 接 相 对 较 少 使 用 。 如 果 使 用 的 是 LEFT SEMI JOIN， 就 意味 着 只 有 左手 型 表 中 满足 ON 


或 者 WHERE 子 句 与 指定 的 与 右手 型 表 关 联系 件 的 数据 会 被 返回 。 无 论 左手 型 表 中 的 一 行 与 右手 
型 表 中 得 多 少 行 匹 配 ， 只 会 有 单行 的 实例 被 返回 。 


Impala 不 支持 自然 连接 和 反 连 接 。 
我 们 可 以 在 如 下 情况 下 使 用 连接 查询 : 


(1) 当 需 要 从 不 同 的 物理 上 独立 存储 的 表 进 行 关联 获取 数据 时 。 比 如 , 我 们 可 以 对 包含 地 址 
信息 的 商业 数据 与 电话 列表 数据 或 者 人 口 普 查 数据 关联 进行 交叉 检验 。 

(2) 将 数据 归 一 化 ， 连 接 查询 允许 我 们 减少 数据 复制 ， 将 不 同 的 数据 存储 在 不 同 的 表 中 。 这 
种 技术 最 常用 的 方式 是 在 传统 的 关系 型 数据 库 中 。 例 如 ， 为 了 减少 在 多 个 表 中 的 像 客 户 名 称 这 样 
长 字符 串 的 重复 存储 ， 我 们 可 以 为 每 个 客户 名 称 指 定 一 个 客户 ID 号 。 这 样 客户 名 称 只 需要 存储 
一 次 ， 如 果 我 们 需要 展现 客户 名 称 列 ， 只 需要 将 其 他 表 的 客户 ID 列 与 客户 表 的 客户 ID 列 进行 关 
联 就 可 以 了 。 

(3) 对 于 那些 很 少 使 用 的 某 些 列 ， 我 们 可 以 将 其 移动 到 其 他 表 中 以 减少 大 部 分 查询 的 负载 。 
比如 在 员工 表 中 ，biography 的 字段 可 能 很 少 使 用 ， 那 么 我 们 可 以 将 这 个 字段 放 在 单独 的 表 中 以 减 
少 对 员工 表 大 部 分 查询 的 负载 。 对 于 需要 biography 列 的 查询 ， 我 们 可 以 通过 将 该 表 与 员工 表 关 
联 获 得 。 

当 在 ON 或 者 WHERE 子 句 中 的 关联 列 具有 相同 名 称 时 我 们 需要 指定 像 db_name.table_name 
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这 样 的 完全 限定 名 ， 或 者 表 别名 ， 列 别名 来 减少 歧义 ， 但 同时 也 增加 了 复杂 性 ， 减 低 了 可 读 性 。 


为 了 控制 连接 查询 的 结果 集 ， 我 们 需要 在 ON 或 者 USING 子 句 中 指定 表 的 列 名 ,或 者 在 
WHERE 条 件 中 对 列 进行 等 值 比较 : 


JOIN 连接 的 风险 在 于 一 个 低 效 的 查询 可 能 消耗 过 多 的 资源 。Impala 对 JOIN 进行 限制 来 解决 
这 一 问题 。 为 了 减少 查询 失控 的 机 会 ，Impala 要 求 每 个 JOIN 查询 至 少 包含 一 个 等 式 谓词 。 例 如: 
表 TI 有 1000 行 ，T2 有 1000000 行 记录 ， 查 询 SELECT columns FROM tl JOIN 名 将 返回 10 亿 条 
记录 (1000*1000000)。Impala 需要 查询 指定 一 个 等 式 谓词 ， 在 这 个 查询 中 可 以 是 ONtl.cl =t2.c2 
或 者 tl.cl =t2.c2 。 

即使 指定 了 等 式 谓词 ， 最 终生 成 的 结果 集 仍然 很 大 。 我 们 可 以 使 用 LIMIT 谓词 返回 结果 集 的 


以 
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或 者 我 们 可 以 使 用 比较 操作 符 或 者 聚集 函数 ， 将 一 个 大 的 结果 集 压 缩 成 一 个 更 小 的 结果 集 : 
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由 于 JOIN 查询 可 能 涉及 读 取 大 量 的 磁盘 数据 ， 跨 网 络 发 送 大 量 数据 ， 并 加 载 大 量 数据 到 内 
存 中 做 的 比较 和 过 滤 ， 我 们 可 以 做 基准 测试 、 性 能 分 析 来 优化 查询 ， 以 找到 适合 我 们 的 数据 集 最 
有 效 的 连接 方式 、 硬 件 容量 、 网 络 配置 ， 以 及 集群 负载 。 

Impala 支持 两 类 JOIN， 一 种 是 分 区 JOIN， 一 种 是 广播 JOIN。 如 果 表 或 者 列 的 统计 信息 不 准 
确 ， 数 据 分 布 不 均匀 都 可 以 引起 Impala 选择 错误 的 执行 方式 ， 如 果 出 现 了 这 种 情况 ， 可 以 考虑 使 
用 hints 作为 临时 的 解决 方案 。 


9. ORDER BY 子 句 


ORDER BY 子 句 对 SELECT 语句 产生 的 结果 集中 的 单列 或 者 多 列 进行 排序 。 对 于 分 布 式 查 
询 , 这 是 一 个 代价 非常 高 的 操作 ， 因 为 在 排序 之 前 ,整个 结果 集 需 要 传输 到 一 个 节点 上 进行 排序 。 
这 可 能 比 没 有 ORDER BY 的 语句 需要 更 多 的 内 存 容 量 。 即 使 对 于 有 ORDER BY 或 者 没有 ORDER 
BY 的 子 句 的 查询 大 概 需要 的 时 间 差 不 多 ， 但 是 主观 上 讲 有 ORDER BY 子 句 的 查询 要 更 慢 一 些 ， 
因为 只 有 所 有 的 结果 集 都 返回 而 且 被 处 理 完毕 后 才能 计算 出 结果 。 

ORDER BY 语法 如 下 : 


默认 的 排序 顺序 为 升序 ， 也 就 是 说 比较 小 的 结果 集 在 开头 ， 比 较 大 的 结果 集 在 末尾 。 指 定 
DESC 关键 字 ， 可 以 将 排序 顺序 指定 为 降序 排列 。 

NULLS FIRST/NULLS LAST 子 句 可 以 控制 NULL 值 究竟 是 位 于 结果 集 的 开头 ， 还 是 位 于 结 
果 集 的 末尾 。 

Impala 执行 的 每 一 个 包含 ORDER BY 子 句 的 查询 都 可 以 使 用 LIMIT 关键 字 。 因 为 对 一 个 超 
大 的 结果 集 进行 排序 需要 消耗 更 多 的 内 存 ， 而 top-N 查询 可 以 尽量 减少 协调 者 节点 消耗 更 多 的 内 
存 。 我 们 可 以 指定 LIMIT 子 句 作为 查询 的 一 部 分 ， 或 者 在 impala-shell 中 使 用 SET 
DEFAULT ORDER_BY_LIMIT=.… 对 一 个 会 话 所 有 的 查询 设置 默认 的 限制 , 也 可 以 在 启动 impalad 
进程 启动 时 指定 -default_query_options default_order_by_limit=... 在 实例 级 别 进行 限制 。 
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10. GROUP BY 子 句 


使 用 GROUP BY 子 句 时 需要 使 用 像 COUNTO、SUM0、AVG0、MINO、MAX0 这 样 的 聚集 
函数 。 在 GROUP BY 子 句 中 指定 的 所 有 的 列 都 不 会 参与 聚集 运算 。 

示例 中 的 查询 可 以 计算 出 的 销售 量 最 高 的 $ 项 。 因 为 条 目 ID 不 参与 任何 聚集 运算 ， 所 以 在 
GROUP BY 中 指定 了 条 目 ID。 


HAVING 子 句 可 以 过 滤 聚 集 函 数 计算 的 结果 。 例 如 ,我 们 可 以 计算 销售 量 在 100 以 上 的 销售 
额 最 低 的 商品 : 
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当 进 行 涉及 科学 或 者 财务 的 数据 运算 时 , 我 们 需要 使 用 FLOAT 或 者 DOUBLE 类 型 的 值 来 存 
储 真实 的 浮 点 数 虽然 它 的 精度 很 高 , 但 是 仍然 可 能 无 法 准确 的 表示 分 数值 因此 如 果 对 FLOAT 
或 者 DOUBLE 列 进行 GROUP BY 操作 ， 得 到 的 结果 可 能 不 能 完全 匹配 原始 文本 数据 中 的 数值 。 
为 了 和 数据 中 精确 的 值 进 行 匹 配 ， 我 们 可 以 使 用 四 舍 五 入 操作 、BETWEEN 操作 符 或 者 其 他 的 数 
学 运算 来 实现 这 种 近似 的 操作 。 在 如 下 示例 中 ，ss_wholesale_cost 列 返 回 的 成 本 值 接近 但 并 不 完 
全 等 于 原始 的 成 本 值 。 


需要 注意 的 是 ， 这 里 的 批发 成 本 原本 为 96.34、98.38 这 样 的 小 数 ， 我 们 这 里 计算 出 的 值 由 于 
精度 的 限制 可 能 比 实际 的 值 偏 大 或 者 偏 小 一 点 点 。 使 用 FLOAT 或 者 DOUBLE 类 型 很 容易 引起 数 
据 精度 的 问题 ， 所 以 金融 行业 的 数据 处 理 系统 使 用 占用 空间 少 ， 效 率 高 的 数据 类 型 来 存储 货币 ， 
同时 也 避免 了 四 舍 五 入 的 错误 。 


11. HAVING 子 句 


对 带 有 GROUP BY 子 句 的 SELECT 查询 执行 过 滤 操 作 ， 它 过 滤 的 是 聚集 函数 运算 的 结果 ， 
而 不 是 原始 数据 的 行 。 
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12.LIMIT 子 句 
LIMIT 子 句 限制 SELECT 产生 的 结果 集 输出 的 最 大 行 数 。 在 如 下 的 情况 下 使 用 : 


(1) TOP-N 查询 ， 比 如 销售 得 最 好 的 商品 类 别 前 10 位 ， 或 者 网 站 流量 最 大 的 50 台 机 器 的 
机 器 名 称 。 

(2) 从 一 个 表 或 者 查询 中 采样 数据 .对 于 一 个 没有 ORDER BY 子 句 限制 的 查询 , 使 用 LIMIT 
限制 获取 的 数据 是 随机 的 。 

(3) 保持 从 海量 结果 集中 返回 的 数据 规模 。 如 果 一 个 查询 由 于 WHERE 子 句 匹配 的 行 数 比 
预期 的 多 得 多 ,或 者 其 他 不 可 预知 的 情况 产生 了 一 个 很 大 的 结果 集 ， 使 用 LIMIT 可 以 有 效 地 减少 
结果 集 的 规模 。 


使 用 注意 点 : 


在 早期 版 本 中 ，LIMIT 的 值 必须 是 一 个 数字 常量 。 在 Impala 1.2.1 或 者 更 高 版 本 中 ， 我 们 也 
可 以 使 用 一 个 数字 表达 式 。 

在 Impala 1.2.1 或 者 更 高 的 版 本 中 ， 我 们 可 以 使 用 带 有 OFFSET 的 LIMIT 子 句 生成 一 个 不 同 
于 TOP-N 的 查询 ， 比 如 ， 我 们 要 获取 第 top-11 到 第 top-20 的 值 。 这 项 技术 可 以 用 来 模拟 分 页 的 
效果 。 因 为 Impala 的 查询 一 般 都 会 消耗 大 量 的 IO， 尤 其 对 于 那些 无 法 重 写 应 用 逻辑 的 情况 下 ， 
使 用 这 项 技术 是 最 佳 选 择 。 为 了 获得 更 好 的 性 能 和 可 扩展 性 , 我 们 建议 在 应 用 端 缓存 查询 的 结果 ， 
并 且 在 应 用 罗 辑 中 限定 返回 的 数据 集 的 大 小 。 


示例 : 
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对 于 top-N 查询 ， 我 们 使 用 ORDER BY 和 LIMIT 结合 使 用 。 如 果 我 们 设置 了 
DEFAULT ORDER _BY _LIMIT 选项 , 我 们 就 不 需要 为 每 个 ORDER BY 查询 指定 LIMIT 子 句 了 。 
另外 ， 我 们 还 可 以 通过 设置 ABORT ON_DEFAULT LIMIT_EXCEEDED 选项 来 避免 LIMIT 子 句 
截断 结果 集 。 
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13. OFFSET 子 句 


OFFSET 子 句 可 以 查询 自 逻辑 第 一 行 之 后 的 某 行 开 始 返 回 结果 。 返 回 的 结果 集 的 记录 从 0 开 
始 编号 ， 所 以 如 果 是 OFFSET 0 相当 于 没有 使 用 OFFSET 子 句 。 这 个 子 句 经 常 结合 ORDER BY 
和 LIMIT 一 起 使 用 。 
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示例 : 


如 下 的 例子 演示 了 类 似 于 传统 数据 库 中 的 分 页 功能 。 因 为 Impala 典型 的 查询 场景 是 处 理 上 
MB 或 GB 字 节 的 数据 ， 需 要 每 次 从 磁盘 读 取 大 量 的 数据 文件 ， 所 以 这 种 从 大 量 结果 集中 返回 极 
小 量 数据 的 方式 显得 并 不 高 效 。 只 有 针对 很 老 的 逻辑 复杂 的 应 用 ， 我 们 使 用 单条 语句 重 写 应 用 代 
码 ， 然 后 对 缓存 的 结果 集 进行 分 页 显示 在 页 面 上 。 


14. UNION 子 句 


UNION 子 句 可 以 合并 多 个 查询 的 结果 集 。 默 认 情况 下 ， 合 并 的 结果 集 就 好 像 是 使 用 了 
DISTINCT 操作 符 一 样 。 


语法 : 
Es 
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使 用 注意 点 : 


对 结果 集 进 行 UNION 就 好 像 进行 了 UNION DISTINCT 一 样 。 但 是 同时 UNION 要 对 结果 集 
进行 去 重 操作 ， 这 是 一 个 对 内 存 非 常 敏感 的 操作 。 如 果 我 们 已 经 从 业务 上 可 以 保证 最 终 合并 的 结 
果 集 中 没有 重复 的 记录 , 或 者 业务 上 人 允许 重复 的 记录 出 现 , 使 用 UNION ALL 是 一 个 更 好 的 选择 。 

当 我 们 对 UNION ALL/UNION 的 数据 进行 ORDER BY 的 时 候 ， 通 常会 结合 使 用 LIMIT。 如 
果 我 们 设置 了 DEFAULT_ ORDER _BY_LIMIT 选项 ， 为 了 让 该 设置 对 整个 结果 集 生 效 ， 我 们 需要 
将 UNION 的 查询 放 进 一 个 子 查询 ， 在 对 子 查询 进行 SELECT 和 ORDER BY 操作 。 


示例 : 
首先 我 们 生成 一 些 数 据 ， 数 据 中 包含 多 个 1 的 重复 值 。 


这 里 演示 了 UNION ALL 返回 的 所 有 记录 是 不 会 过 滤 重 复 值 的 。 
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这 个 例子 演示 了 如 果 使 用 没有 ALL 的 UNION 子 句 ， 结 果 集会 进行 去 重 操作 ， 同 时 这 个 查询 
可 能 要 消耗 更 多 的 内 存 ， 花 费 更 多 的 时 间 。 如 果 结 果 集 大 到 有 几 百 万 或 者 几 十 亿 条 数据 ，Impala 
不 推荐 使 用 UNION 操作 。 
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15. WITH 子 句 


这 个 子 句 可 以 放 在 SELECT 语句 之 前 ， 用 于 为 复杂 表达 式 定义 一 个 别名 ， 该 别名 定义 好 之 后 
可 以 在 后 续 的 SELECT 语句 中 多 次 引用 。WITH 子 句 除了 使 用 完 后 不 能 将 WITH 子 句 中 定义 的 表 
和 列 名 持久 化 存储 之 外 ， 很 像 VIEW， 另 外 WITH 子 句 定义 的 别名 不 能 与 已 经 存在 的 表 或 者 视图 
的 名 称 冲 突 。 

我 们 可 以 使 用 子 查询 重 写 一 个 查询 语句 来 代 蔡 WITH 子 句 。 但 是 WITH 子 句 具有 以 下 特点 : 


日 方便 维护 。 尤 其 是 在 包含 有 UNION、 聚 集 函 数 等 复杂 表达 式 被 重复 引用 的 时 候 。 
可 读 性 强 。 将 复杂 的 查询 独立 出 来 使 SQL 查询 语句 更 容易 理解 。 
e 提高 了 与 其 他 传统 的 关系 型 数据 库 的 兼容 性 ， 尤 其 是 Oracle 也 支持 类 似 的 语法 。 


莱 容 性 标准 : SQL:1999 


16. Hints 


Impala 的 SQL 支持 Hints， 使 用 Hints 可 以 更 好 的 从 底层 调整 SQL 查询 的 工作 方式 。 对 于 那 
些 丢失 了 统计 信息 或 者 其 他 因素 导致 查询 成 本 异常 昂贵 时 ， 使 用 Hints 可 以 作为 临时 的 解决 方案 。 
Hints 的 使 用 方式 为 使 用 [ ] 将 特定 的 Hints 括 起 来 放 在 SQL 语句 中 。 

[BROADCAST] 和 [SHUFFLE] 控制 JOIN 查询 的 连接 方式 ， 可 以 在 语句 中 的 JOIN 关键 字 
后 面 加 上 这 个 Hints。 


e [SHUFFLE]: JOIN 操作 使 用 “分 区 ”技术 ， 将 所 有 表 的 相关 联 的 行使 用 hash 算法 分 片 ， 
具有 相同 hash 值 的 数据 被 发 送 到 同一 个 节点 上 处 理 。 这 种 方式 对 于 处 理 大 表 之 间 的 关联 
非常 有 效 。 

。 [BROADCAST]: JOIN 操作 使 用 “广播 ”技术 ， 将 右手 型 表 的 所 有 内 容 发 送 到 与 之 关联 
的 所 有 节点 上 。 这 种 方式 对 于 大 表 与 小 表 的 关联 非常 有 效 。 当 表 或 者 索引 的 统计 信息 不 可 
用 时 ， 这 种 连接 方式 是 默认 的 连接 方式 。 如 果 过 期 的 元 数据 可 能 引起 Impala 选择 错误 的 
JOIN 方式 。 
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使 用 EXPLAIN 可 以 确认 一 个 特定 的 查询 使 用 了 什么 样 的 关联 策略 。 

使 用 JOIN 将 一 个 很 大 的 customer 表 与 一 个 很 小 的 不 到 100 行 数据 的 lookup 表 进 行 关联 。 右 
手 型 的 表 将 会 被 广播 到 所 有 节点 上 参与 连接 操作 。 我 们 也 可 以 使 用 [broadcast] 的 Hints 强制 查询 使 
用 广播 的 连接 方式 。 


对 于 两 个 非常 大 的 表 使 用 [SHUFFLE] 进 行 分 区 关联 是 最 有 效 的 连接 方式 。 我 们 也 可 以 通过 测 
试 的 方式 来 找到 每 一 个 表 与 其 他 表 关 联 最 有 效 的 关联 策略 。 我 们 也 可 以 使 用 [shufe] 的 Hints 强制 
使 用 分 区 连接 的 关联 策略 。 


对 于 三 张 或 者 三 张 以 上 的 表 参 与 的 关联 操作 ，Hints 对 指定 的 JOIN 关键 字 两 侧 的 表 有 效 。 表 
关联 是 从 左 向 右 进行 的 。 如 下 的 例子 中 的 表 tl 和 忆 采用 分 区 连接 ， 得 到 的 结果 集 与 表 使 用 的 
是 广播 连接 方式 。 


当 我 们 向 分 区 表 插 入 数据 时 ， 尤 其 是 向 Parquet 格式 的 表 中 插入 数据 时 ， 我 们 可 以 对 INSERT 
语句 使 用 Hints 来 降低 资源 的 使 用 ， 提 高 性 能 。 需 要 注意 的 点 如 下 : 


(1) 这 个 Hints 仅 对 Impala 1.2.2 及 以 上 版 本 有 效 。 

(2) 我 们 可 以 在 使 用 INSERT 向 分 区 表 插 入 数据 因为 容量 限制 导致 失败 , 或 者 插入 性 能 低下 
时 使 用 这 些 Hints。 

(3) 使 用 SHUFFLE] 或 者 [NOSHUFFLE] 的 Hints 时 ， 需 要 将 其 放 在 PARTITION 关键 字 之 
后 ，SELECT 关键 字 之 前 。 

(4) [SHUFFLE] 关 键 字 将 导致 选择 并 发 向 HDFS 写 文件 数 最 小 的 执行 计划 ， 使 用 1GB 的 内 
存 缓存 不 同 分 区 的 数据 。 这 将 大 大 减少 INSERT 操作 的 资源 消耗 ， 由 于 Impala 总 是 将 同一 分 区 的 
数据 存放 在 同一 节点 上 ， 这 一 操作 可 能 引起 节点 间 的 数据 传输 。 

(5) [NOSHUFFLE] 关 键 字 将 导致 选择 一 个 插入 速度 较 快 ， 但 是 会 生成 很 多 小 数据 文件 的 执 
行 计划 。 这 很 可 能 引起 INSERT 操作 由 于 超过 容量 限制 而 失败 。 

(6) 如 果 INSERT ... SELECT 查询 的 源 表 中 包含 分 区 列 ， 即 使 没有 列 统计 信息 ，Impala 也 
会 自动 选择 [SHFFULE] 方 式 进行 插入 。 

(7) 如 果 INSERT ... SELECT 查询 源 表 中 的 分 区 列 的 统计 信息 可 用 ，Impala 将 根据 列 的 
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distinct 值 的 个 数 和 INSERT 操作 的 节点 数 来 确定 使 用 SHUFFLE] 还 是 [NOSHUFFLE]。 当 然 ， 我 
们 也 可 是 使 用 Hints 来 强制 Impala 选择 我 们 想 要 的 执行 计划 。 


17. DISTINCT 操作 符 
DISTINCT 操作 符 使 用 在 SELECT 语句 中 ， 用 于 过 滤 并 删除 结果 集中 的 重复 值 。 


该 语句 用 来 过 滤 单列 的 重复 值 。 


该 语句 用 来 过 滤 两 列 组 合 的 重复 值 。 
我 们 可 以 使 用 DISTINCT 结合 聚集 函数 使 用 比如 可 以 和 COUNTO 结 合 使 用 来 计算 一 个 列 包 
含 多 少 个 不 同 值 。 


该 语句 用 来 计算 单列 非 重 复 值 的 个 数 。 


该 语句 用 来 计算 两 个 列 非 重 复 值 的 个 数 。 
但 是 Impala 不 支持 在 同一 个 查询 中 使 用 多 次 聚集 函数 。 例 如 ,我 们 不 能 在 一 个 查询 的 SELECT 
列表 中 查询 COUNT(DISTINCT c_first_ name) 和 COUNT(DISTINCT c_last_name)。 


4.6.19 SHOW 

SHOW 可 以 用 来 查看 不 同类 型 的 Impala 对 象 的 相关 信息 。 我 们 可 以 使 用 SHOW object type 
语句 用 来 查看 当前 数据 库 中 所 有 的 该 类 型 的 对 象 , 也 可 以 使 用 SHOW object_typeIN database_name 
语句 来 查看 特定 数据 库 中 的 所 有 该 类 型 的 对 象 。 


语法 : 
显示 特定 类 型 的 对 象 列表 。 


语法 中 的 pattern 参数 可 以 是 一 个 字符 串 常量 ， 也 可 是 使 用 通配符 * 代 表 任 意 字符 ， 或 者 使 用 | 
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连接 多 个 通配符 ， 表 示 或 的 关系 。 这 里 的 LIKE 关键 字 也 是 可 选 的 。 由 于 所 有 的 对 象 名 称 使 用 小 
写 存 储 ， 所 以 匹配 的 字符 串 中 也 要 使 用 小 写字 符 。 
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使 用 注意 点 : 


在 第 一 次 连接 到 一 个 实例 上 之 后 ， 通 常会 使 用 SHOW DATABASES 语句 列 出 所 有 的 数据 库 。 
然后 使 用 USE db_name 语句 可 以 切换 到 指定 的 数据 库 ， 执 行 SHOW TABLES 可 以 对 该 库 中 的 表 
进行 查看 ， 并 执行 SELECT 或 INSERT 等 一 系列 的 操作 。 

为 了 对 执行 CREATE TABLE 创建 的 表 定 义 进行 变更 ， 我 们 可 能 需要 执行 一 系列 的 ALTER 
TABLE 语句 。 为 了 确认 后 续 的 ALTER TABLE 语句 对 表 定 义 的 影响 ， 可 以 使 用 SHOW CREATE 
TABLE 来 显示 当前 表 的 CREATE TABLE 表 定 义 语句 。 使 用 SHOW CREATE TABLE 生成 的 脚本 
可 以 很 轻松 的 完成 对 当前 表 的 克隆 ， 而 不 需要 再 依次 执行 原始 的 CREATE TABLE 语句 和 后 续 的 
ALTER TABLE 语句 。 使 用 SHOW CREATE TABLE 生成 的 脚本 克隆 时 ， 需 要 将 数据 库 名称 ， 
LOCATION 字段 和 其 他 一 些 变量 的 信息 修改 为 与 目标 库 匹 配 的 信息 。 

SHOW TABLE STATS 和 SHOW COLUMN STATS 对 于 调整 和 诊断 性 能 ， 尤 其 对 大 表 和 复杂 
连接 查询 来 说 非常 重要 。 

默认 情况 下 ,SHOW FUNCTIONS 显示 的 是 UDFs, 而 SHOW AGGREGATE FUNCTIONS 显 
示 的 是 UDAFs。SHOW FUNCTIONS 的 输出 包含 了 每 个 函数 的 参数 签名 。 在 DROP FUNCTION 
语句 中 可 以 指定 参数 签名 删除 特定 数据 类 型 参数 的 函数 。 

如 果 要 显示 Impala 内 嵌 的 函数 ， 可 以 指定 数据 库 名 称 为 impala_builtins。 
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SHOW DATABASES 输出 包括 了 数据 库 impala_builtins， 在 上 面 的 例子 中 我 们 演示 了 可 以 在 
这 个 特殊 的 数据 库 中 查看 内 嵌 函 数 的 定义 。 

如 果 启 用 了 授权 机 制 , 那么 使 用 SHOW 只 能 输出 你 拥有 权限 的 对 象 。 而 那些 我 们 没有 权限 的 
数据 库 ， 表 或 者 其 他 对 象 都 会 被 隐藏 。 如 果 某 个 对 象 在 数据 库 中 存在 ,我们 又 无 法 通过 SHOW 命 
令 看 到 这 个 对 象 ， 那 我 们 就 有 理由 怀疑 是 否 在 这 个 对 象 上 具有 访问 的 权限 。 

如 下 我 们 将 演示 如 何 从 一 个 不 熟悉 的 系统 中 找到 一 张 特定 的 表 。 当 我 们 初次 连接 上 Impala 默 
认 的 当前 数据 库 名 称 为 DEFAULT， 我 们 可 以 列 出 系统 中 存在 的 所 有 数据 库 。 我 们 也 可 以 使 用 
SHOW TABLES IN db_name 在 不 进入 这 个 数据 库 的 情况 下 列 出 该 数据 库 中 的 所 有 表 .。 当然 这 和 在 
数据 库 内 部 使 用 SHOW TABLES 的 效果 是 一 样 的 。 
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4.6.20 USE 

默认 情况 下 ， 当 我 们 连接 到 Impala 实例 时 ， 当 前 数据 库 为 default。 在 impala-shell 回话 中 执 
行 USE db_name 可 以 切换 到 指定 的 数据 库 。 在 当前 数据 库 中 执行 CREATE TABLE、INSERT 、 
SELECT 或 者 其 他 语句 都 可 以 直接 指定 表 名 ， 而 不 需要 指定 数据 库 名 称 作为 前 级 。 


使 用 注意 点 : 
以 下 情况 需要 切换 默认 的 数据 库 : 


(1) 为 了 避免 每 次 引用 表 时 指定 数据 库 名 称 。 执 行 SELECT * FROM tl JOIN 也， 而 不 是 
SELECT* FROM db.tl JOIN db.t2。 
(2) 为 了 在 同一 个 数据 库 中 执行 一 系列 的 操作 。 比 如 执行 创建 表 、 插 入 数据 、 对 表 进 行 查询 
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等 一 系列 的 操作 。 


为 了 在 启动 impala-shell 时 直接 自动 连接 到 特定 的 数据 库 ， 可 以 在 启动 impala-shell 时 指定 -d 
db_name 选项 。-d 选项 对 于 运行 SQL 脚本 非常 有 用 ， 使 用 这 个 选项 之 后 就 无 须 把 USE 语句 硬 编 
码 在 SQL 脚本 中 。 


人 入. 7 内 嵌 函 数 


Impala 支持 数据 运算 、 字 符 串 操作 、 日 期 运算 等 几 类 内 购 函 数 。 内 堪 函 数 可 以 使 SQL 返回 经 
过 格式 化 、 运 算 、 类 型 转换 后 的 结果 ， 而 无 须 经 过 另外 一 个 应 用 进行 特别 处 理 。 通 过 在 需要 的 位 
置 使 用 函数 调用 ， 我 们 可 以 使 SQL 查询 和 过 程 中 使 用 表达 式 一 样 方便 。 

Impala 支持 的 函数 包括 : 


数学 运算 函数 
类 型 转换 函数 

日 期 和 时 间 子 数 
条 件 函 数 

字符 串 函 数 
聚集 函数 


我 们 可 以 直接 通过 SELECT 语句 调用 这 些 函 数 。 对 于 大 多 数 的 函数 ， 我 们 可 以 忽略 FROM 
子 句 ， 直 接 对 常量 进行 运算 。 
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当 我 们 使 用 FROM 子 句 并 把 一 列 作为 函数 的 输入 参数 时 这 个 函数 将 对 结果 集中 的 每 条 记录 
的 相应 列 进 行 运算 。 


如 果 任 何 函 数 的 输入 参数 为 NULL， 那 么 函数 的 输出 结果 也 是 NULL。 
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聚集 函数 与 其 他 函数 不 同 ， 它 需要 对 结果 集中 所 有 的 项 进行 运算 ， 因 此 它 需要 使 用 FROM 子 
句 。 


聚集 函数 不 会 返回 NULL 值 ， 因 为 它 总 是 会 忽略 参与 运算 的 列 中 的 NULL 值 。 例 如 ， 如 果 某 
些 行 中 的 列 有 NULL 值 ， 那 么 在 对 这 一 列 计算 AVGO 时 ，NULL 值 的 行 会 被 忽略 。 同 样 地 ， 如 果 
我 们 在 查询 中 使 用 COUNT(col_name) 计 算 行 数 ， 只 有 那些 col_name 为 非 NULL 值 的 行 数 才 会 被 
计算 在 内 。 


4.7.1 数学 函数 
Impala 支持 以 下 数学 函数 : 
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(1) abs(double a) 
该 函数 返回 输入 参数 的 绝对 值 。 返 回 类 型 为 DOUBLE。 
该 函数 能 保证 所 有 返回 的 值 都 是 正 的 。 它 与 函数 positive() 完 全 不 同 ，positive() 无 论 输 入 参数 
为 正 值 还 是 负 值 ， 返 回 的 值 都 没有 任何 变化 。 
(2) acos(double a) 
该 函数 返回 参数 的 反 余弦 值 。 返 回 类 型 为 DOUBLE。 
(3) asin(double a) 
该 函数 返回 参数 的 反正 弦 值 。 返 回 类 型 为 DOUBLE。 
(4) atan(double a) 
该 函数 返回 参数 的 反正 切 值 。 返 回 类 型 为 DOUBLE。 
(5) bin(bigint a) 
该 函数 返回 参数 的 二 进 制 代码 表示 ， 返 回 值 为 包含 了 0 和 1 的 字符 串 。 
(6) ceil(double a), ceiling(double a) 
该 函数 返回 大 于 或 等 于 参数 值 的 最 小 整数 。 返 回 类 型 为 整数 。 
(7) conv(bigint num, int from_base, int to_base), conv(string num, int from_base, int to_base) 
该 函数 将 参数 的 值 转换 为 指定 进 制 的 数值 字符 串 。 比 如 ， 我 们 可 以 将 一 个 16 进 制 的 数 FCE2 
转换 为 10 进 制 数 。 输入 参数 可 以 是 整数 或 者 字符 串 , 返回 值 为 字符 串 类 型 。 如 果 需 要 把 返回 值 转 
换 成 需要 的 类 型 ， 需 要 使 用 CASTO 函 数 。 
(8) cos(double a) 
该 函数 返回 参数 的 余弦 值 ， 返 回 类 型 为 DOUBLE。 
(9) degrees(double a) 
该 函数 将 弧度 值 转换 为 度数 。 返 回 类 型 为 DOUBLE。 
(10) e0 
该 函数 返回 自然 对 数 e， 返 回 类 型 为 DOUBLE。 
(11) exp(double a) 
该 函数 返回 自然 对 数 e 的 a 次 方 ， 返 回 类 型 为 DOUBLE。 
(12) floor(double a) 
该 函数 返回 小 于 或 等 于 输入 参数 最 大 整数 值 。 返 回 类 型 为 INT。 
(13) fmod(double a, double b), fmod(float a, float b) 


该 函数 返回 输入 参数 a 除 以 输入 参数 b 的 余数 。 返 回 类 型 为 FLOAT 或 者 DOUBLE， 返 回 类 
型 取决 于 输入 参数 的 类 型 。 该 函数 自 Impala 1.1.1 起 可 使 用 。 
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(14) fnv_hash(type v) 

该 函数 返回 从 输入 参数 得 到 的 一 个 64 位 的 值 ， 该 值 可 以 在 应 用 中 很 方便 的 完成 hash 运算 。 
返回 类 型 为 BIGINT。 该 函数 在 Impala 1.2.2 版 本 起 可 以 使 用 。 

在 很 多 情况 下 ， 我 们 需要 在 应 用 程序 中 基于 该 函数 的 返回 值 来 进行 将 具备 某 些 不 同 特征 的 值 
聚集 在 一 起 处 理 来 实现 负载 均衡 或 者 其 他 的 分 布 式 技术 。 

因为 返回 结果 是 一 个 64 位 的 值 ， 我 们 可 以 使 用 ABSO 绝 对 值 函数 和 % 取 模 操作 符 来 将 结果 
限制 在 某 个 范围 之 内 。 比 如 ， 为 了 产生 一 个 从 0 到 9 的 hash 值 ， 我 们 可 以 使 用 表达 式 
ABS(FNV_HASH(x)) % 10 来 实现 。 

在 不 支持 CRC32 算法 的 系统 上 ， 该 函数 与 Impala 内 部 使 用 hash 算法 相同 。 

该 函数 是 FNV-1a 的 变种 。 某 些 不 同 值 组 合作 为 输入 参数 ， 有 可 能 产生 相同 的 返回 值 ， 所 以 
它 不 适合 用 于 加 密 。 


示例 : 
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对 于 较 短 的 输入 参数 值 ， 返 回 值 的 区 分 度 不 是 很 明显 : 


(15) greatest(bigint a[, bigint b ...]), greatest(double a[, double b ...]), greatest(string al[,string b ...]), 
greatest(timestamp al, timestamp b ...]) 
该 函数 返回 表达 式 列表 中 的 最 大 值 。 返 回 值 与 输入 参数 中 的 原始 值 相同 。 返 回 类 型 与 原始 的 
输入 参数 的 类 型 相同 (如 果 输 入 参数 为 INT 型 会 被 提升 为 BIGINT 型 ， 如 果 输入 参数 为 FLOAT 
型 ， 会 被 提升 为 DOUBLE 型 )。 可 以 使 用 CASTO 函 数 转换 为 自己 需要 的 类 型 。 


(16) least(bigint a[，bigint b ...]), least(double a[, double b ...]), least(string a[，stringb ...]), 
least(timestamp a[, timestamp b ...]) 
该 函数 返回 表达 式 列表 中 的 最 小 数 中 的 原始 值 相同 。 返 回 类 型 与 原始 的 输入 参数 的 类 型 相同 
(如 果 输 入 参数 为 INT 型 会 被 提升 为 BIGINT 型 ， 如 果 输 入 参数 为 FLOAT 型 ， 会 被 提升 为 
DOUBLE 型 )。 可 以 使 用 CASTO 函 数 转 换 为 自己 需要 的 类 型 。 
(17) hex(bigint a), hex(string a) 
该 函数 返回 输入 参数 的 16 进 制 表 示 。 返 回 类 型 为 STRING 。 
(18) In(double a) 
该 函数 返回 输入 参数 的 自然 对 数 。 返 回 类 型 为 DOUBLE。 


(19) log(double base, double a) 
该 函数 返回 以 base 为 底 的 a 的 对 数 。 返 回 类 型 为 DOUBLE。 


(20) logl0(double a) 
该 函数 返回 以 10 为 底 的 a 的 对 数 。 返 回 类 型 为 DOUBLE。 
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(21) log2(double a) 
该 函数 返回 以 2 底 的 a 的 对 数 。 返 回 类 型 为 DOUBLE。 
(22) negative(int a), negative(double a) 
该 函数 返回 输入 参数 的 相反 数 。 返 回 类 型 为 NT 或 者 DOUBLE， 依 赖 于 输入 参数 的 类 型 。 
(23) pi0 
该 函数 返回 圆周 率 常数 x 。 返 回 类 型 为 DOUBLE。 
(24) pmod(int a, int b), pmod(double a, double b) 
该 函数 返回 输入 参数 a 除 以 输入 参数 b 的 正 的 余数 。 返回 类 型 为 INT 或 者 DOUBLE, 返回 类 
型 取决 于 输入 参数 的 类 型 。 
(25) positive(int a), positive(double a) 
该 函数 返回 输入 参数 的 原始 值 。 返 回 类 型 为 NT 或 者 DOUBLE， 依 赖 于 输入 参数 的 类 型 。 


(26) pow(double a, double p), power(double a, double p) 
该 函数 返回 a 的 p 次 容 。 返 回 类 型 为 DOUBLE。 
(27) quotient(int a, int b) 
该 函数 返回 a 除 以 b 的 整数 部 分 。 返 回 类 型 为 INT。 
(28) radians(double a) 
该 函数 返回 度数 对 应 的 弧度 数 。 返 回 类 型 为 DOUBLE。 
(29) rand(), rand(int seed) 
该 函数 返回 一 个 介意 0 和 1 之 前 的 随机 数 。 如 果 以 某 个 特定 的 数值 作为 输入 参数 ， 它 将 会 返 
回 一 个 确定 的 随机 数 。 
在 同一 个 查询 中 多 次 调用 rand(), 每 个 rand0 生 成 的 随机 数 不 同 。 如果 需要 在 一 个 查询 的 多 个 
位 置 使 用 同一 个 随机 数 ， 可 以 在 每 个 randO 调 用 中 使 用 相同 的 输入 参数 作为 种 子 。 


(30) rand(unix_timestamp()) fom ..., round(double a), round(double a, int d) 
该 函数 依据 四 舍 五 入 返回 整数 值 。 如 果 有 两 个 输入 参数 ， 后 一 个 输入 参数 代表 小 数 点 后 保留 
的 位 数 。 如 果 输入 参数 为 一 个 ， 返 回 值 为 BIGINT， 如 果 输 入 参数 有 两 个 ， 返 回 值 为 DOUBLE。 
(31) sign(double a) 
该 函数 为 符号 函数 ， 如 果 输 入 参数 为 正 数 返回 1， 如 果 输 入 参数 为 负数 ， 返 回 -1， 如 果 输 入 
参数 为 0， 返回 0。 
返回 类 型 为 NT。 
(32) sin(double a) 
返回 a 的 正弦 值 ， 返 回 类 型 为 DOUBLE。 
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(33) sqrt(double a) 
返回 a 的 平方 根 。 返 回 类 型 为 DOUBLE。 


(34) tan(double a) 
返回 a 的 正切 值 ， 返 回 类 型 为 DOUBLE。 
(35) unhex(string a) 
返回 16 进 制 字符 串 对 应 的 ASCII 值 对 应 的 字符 。 返 回 类 型 为 STRING。 


4.7.2 ”类 型 转换 函数 
Impala 支持 如 下 类 型 转换 函数 : 


cast(expr as type) 

该 函数 一 般 与 其 他 函数 一 起 使 用 , 用 于 将 其 他 函数 返回 的 结果 转换 为 指定 的 数据 类 型 。Impala 
对 函数 输入 参数 的 类 型 有 严格 的 规定 。 例 如 ，Impala 不 能 自动 将 DOUBLE 转换 为 FLOAT 类 型 ， 
不 能 将 BIGINT 类 型 转换 为 INT 类 型 等 。 它 不 会 自动 实现 从 高 精度 到 低 精度 的 转换 。 当 输入 参数 
的 类 型 不 是 Impala 要 求 的 类 型 时 ， 需 要 使 用 CASTO 做 强制 转换 。 


示例 : 


4.7.3 ”时间 和 日 期 函数 


Impala 的 TIMESTAMP 类 型 具有 日 期 部 分 和 时 间 部 分 ，Impala 的 日 期 时 间 的 表示 都 是 基于 
TIMESTAMP 进行 的 。 对 于 像 hour0 或 者 minuteO 这 样 的 抽取 单个 时 间 部 分 的 函数 ， 通 常 返回 整 
数值 。 而 对 于 像 date add0 或 者 to_date0 这 样 的 格式 化 日 期 的 函数 ， 通 常 返回 字符 串 值 。 
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Impala 支持 如 下 的 日 期 和 时 间 函 数 : 


(1) adddate(timestamp startdate, int days), adddate(timestamp startdate, bigint days) 
该 函数 针对 startdate 的 时 间 戳 增加 指定 days 数目 的 天 数 。 返 回 类 型 为 TIMESTAMP。 


(2) current timestamp() 
该 函数 是 函数 now0) 的 别名 ， 返 回 类 型 为 TIMESTAMP。 


(3) date add(timestamp startdate, int days), date_ add(timestamp startdate, interval_expression) 

该 函数 针对 startdate 的 时 间 戳 增加 指定 days 数目 的 天 数 。 与 函数 adddate() 不 同 的 是 ， 第 一 个 
参数 的 类 型 可 以 是 字符 串 类 型 ，Impala 会 自动 将 其 转换 为 TIMESTAMP 类 型 。 第 二 个 参数 除了 可 
以 以 整 型 方式 指定 天 数 之 外 ， 还 可 以 使 用 INTERVAL 表达 式 来 指定 为 周 、 年 、 小 时 、 秒 等 其 他 的 
时 间 单 元 。 该 函数 返回 类 型 为 TIMESTAMP。 


(4) date_sub(timestamp startdate, int days), date_sub(timestamp startdate, interval_expression) 

该 函数 针对 startdate 的 时 间 戳 减 去 指定 days 数目 的 天 数 。 与 函数 adddate0 不 同 的 是 ， 第 一 个 
参数 的 类 型 可 以 是 字符 串 类 型 ，Impala 会 自动 将 其 转换 为 TIMESTAMP 类 型 。 第 二 个 参数 除了 可 
以 以 整 型 方式 指定 天 数 之 外 ， 还 可 以 使 用 INTERVAL 表达 式 来 指定 为 周 、 年 、 小 时 、 秒 等 其 他 的 
时 间 单 元 。 该 函数 返回 类 型 为 TIMESTAMP。 

(5) datediff(string enddate, string startdate) 

该 函数 返回 输入 参数 中 得 两 个 字符 串 表示 的 日 期 相差 的 天 数 。 返 回 类 型 为 NT。 
(6) day(string date), dayofmonth(string date) 

该 函数 从 输入 参数 字符 串 表 示 的 日 期 中 返回 每 个 月 的 第 几 号 。 返 回 类 型 为 NT。 
(7) dayname(string date) 

该 函数 从 输入 参数 字符 串 表 示 的 日 期 返回 英文 表示 的 星期 几 。 返 回 值 的 范围 是 从 “Sunday” 
到 “Saturday”。 该 函数 通常 用 于 在 查询 中 生成 报表 的 语句 。 除 了 可 以 使 用 这 个 函数 ， 也 可 以 对 
dayofweek() 返 回 的 数值 使 用 CASE 表达 式 达 到 同样 的 效果 。 返 回 类 型 为 STRING。 


(8) dayofweek(string date) 
该 函数 从 输入 参数 字符 串 表示 的 日 期 返回 是 一 周 的 第 几 天 。 返 回 值 的 范围 是 从 1 (星期 六 ) 
到 7 (星期 日 )。 返 回 类 型 为 INT。 


(9) dayofyear(timestamp date) 
该 函数 返回 输入 参数 时 间 惟 表示 的 是 一 年 的 第 多 少 天 。 返 回 值 的 范围 为 1 (1 月 1 号 ) 到 366 
(12 月 31 号 )。 返 回 值 为 INT。 
(10) days add(timestamp startdate, int days), days_add(timestamp startdate, bigint days) 
该 函数 表示 对 输入 参数 的 时 间 戳 startdate 加 上 指定 的 days 天 数 。 该 函数 类 似 于 date_ add0， 
区 别 在 于 days_add0 函 数 的 第 一 个 输入 参数 为 TIMESTAMP 类 型 。 返 回 类 型 为 TIMESTAMP。 
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(11) days_sub(timestamp startdate, int days), days_sub(timestamp startdate, bigint days) 
该 函数 表示 对 输入 参数 的 时 间 戳 startdate 减 去 指定 的 days 天 数 。 该 函数 类 似 于 date_sub0， 
区 别 在 于 days_sub() 函 数 的 第 一 个 输入 参数 为 TIMESTAMP 类 型 。 返 回 类 型 为 TIMESTAMP。 
(12) from_unixtime(bigint unixtime[, string format]) 
该 函数 将 从 UNIX 纪元 时 间 到 指定 时 间 经 历 的 秒 数 作为 输入 参数 ， 将 其 按照 指定 的 格式 转换 
成 时 间 字 符 串 。 返 回 类 型 为 STRING。 
字符 串 的 格式 接受 所 有 可 以 对 TIMESTAMP 指定 的 时 间 格 式 : 日 期 时 间 ， 只 有 日 期 ， 只 有 时 
间 ， 可 以 指定 的 秒 的 精度 等 。 
在 Impala 1.3.1 或 者 更 高 的 版 本 中 ， 我 们 可 以 使 用 不 同 数量 的 占 位 符 对 日 期 时 间 做 不 同 的 表 
示 。 使 用 多 个 y d，H， 可 以 在 输出 中 表示 为 零 前 导 符 。 对 于 M 表示 的 月 份 ， 非 零 前 导 符 表示 为 
3， 而 使 用 MM 表示 的 包含 零 前 导 符 的 形式 表示 为 03 ， 而 使 用 MMM 则 表示 为 Mar，Impala 
不 允许 使 用 更 多 的 M 来 表示 月 份 。 一 个 日 期 字符 串 的 格式 可 以 表示 为 "yyyy-MM-dd 
HH:mm:ss.SSSSSS"，"dd/MM/yyyy HH:mm:ss.SSSSSS"，"MMMdd, yyyy HH.mm.ss (SSSSSS)" 等 。 


示例 : 
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JL6:21:00 1 


+---------------------------------------+ 


(13) from_utc_timestamp(timestamp, string timezone) 

该 函数 将 一 个 指定 的 UTC 时 间 戳 转换 为 指定 时 区 的 本 地 时 间 。 返 回 类 型 为 TIMESTAMP。 
(14) hour(string date) 

该 函数 从 一 个 字符 串 表 示 的 日 期 中 返回 小 时 部 分 。 返 回 类 型 为 NT。 
(15) hours_add(timestamp date, int hours), hours_add(timestamp date, bigint hours) 

该 函数 返回 时 间 戳 加 上 指定 的 小 时 数 生成 的 新 时 间 戳 。 返 回 类 型 为 TIMESTAMP。 


(16) hours_sub(timestamp date, int hours), hours_sub(timestamp date, bigint hours) 
该 函数 返回 时 间 戳 减 去 指定 的 小 时 数 生成 的 新 时 间 戳 。 返 回 类 型 为 TIMESTAMP。 
(17) microseconds add(timestamp date, int microseconds)，microseconds_add(timestamp date, 
bigint microseconds) 


该 函数 返回 时 间 惟 加 上 指定 的 毫秒 数 生成 的 新 时 间 锥 。 返 回 类 型 为 TIMESTAMP。 

(18) microseconds sub(timestamp date, int microseconds), microseconds_ sub(timestamp date, 

bigint microseconds) 

该 函数 返回 时 间 戳 减 去 指定 的 毫秒 数 生成 的 新 时 间 戳 。 返 回 类 型 为 TIMESTAMP。 

(19) minute(string date) 
该 函数 返回 字符 串 所 表示 的 时 间 的 分 钟 数 。 返 回 日 期 为 INT。 

(20) minutes add(timestamp date, int minutes), minutes_add(timestamp date, bigint minutes) 
该 函数 返回 时 间 戳 加 上 指定 的 分 钟 数 表示 的 新 时 间 戳 。 返 回 类 型 为 TIMESTAMP。 

(21) minutes_sub(timestamp date, int minutes), minutes_sub(timestamp date, bigint minutes) 
该 函数 返回 时 间 戳 减 去 指定 的 分 钟 数 表示 的 新 时 间 戳 。 返 回 类 型 为 TIMESTAMP。 

(22) month(string date) 
该 函数 返回 字符 串 代表 的 日 期 中 得 月 份 。 返 回 类 型 为 INT。 

(23) months add(timestamp date, int months), months_add(timestamp date, bigint months) 
该 函数 返回 时 间 惟 加 上 指定 的 月 份 数 表示 的 新 时 间 戳 。 返 回 类 型 为 TIMESTAMP。 

(24) months_sub(timestamp date, int months), months_sub(timestamp date, bigint months) 
该 函数 返回 时 间 戳 减 去 指定 的 月 份 数 表示 的 新 时 间 戳 。 返 回 类 型 为 TIMESTAMP。 


(25) nanoseconds add(timestamp date, int nanoseconds), nanoseconds add(timestamp date, bigint 
nanoseconds) 


该 函数 返回 时 间 戳 加 上 指定 的 纳 秒 数 表 示 的 新 时 间 戳 。 返 回 类 型 为 TIMESTAMP。 
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(26) nanoseconds_sub(timestamp date, int nanoseconds), nanoseconds_sub(timestamp date, bigint 
nanoseconds) 
该 函数 返回 时 间 戳 减 去 指定 的 纳 秒 数 表 示 的 新 时 间 戳 。 返 回 类 型 为 TIMESTAMP。 
(27) now() 
该 函数 返回 当前 UTC 标准 日 期 和 时 间 。 返 回 类 型 为 TIMESTAMP 。 
(28) second(string date) 
该 函数 返回 字符 串 所 表示 的 时 间 的 秒 数 。 返 回 日 期 为 NT。 
(29) seconds add(timestamp date, int seconds), seconds_add(timestamp date, bigint seconds) 
该 函数 返回 时 间 戳 加 上 指定 的 秒 数 表 示 的 新 时 间 戳 。 返 回 类 型 为 TIMESTAMP。 
(30) seconds_sub(timestamp date, int seconds), seconds_sub(timestamp date, bigint seconds) 
该 函数 返回 时 间 戳 减 去 指定 的 秒 数 表 示 的 新 时 间 戳 。 返 回 类 型 为 TIMESTAMP。 
(31) subdate(timestamp startdate, int days, subdate(timestamp startdate, bigint days, 
该 函数 返回 时 间 戳 减 去 指定 的 天 数 生成 的 新 时 间 戳 。 返 回 类 型 为 TIMESTAMP。 该 函数 与 
date_sub(0) 的 区 别 在 于 本 函数 的 输入 参数 为 时 间 戳 ， 而 不 是 字符 串 。 
(32) to_date(timestamp) 
该 函数 返回 基于 某 个 时 间 戳 的 字符 串 。 返 回 类 型 为 STRING。 


(33) to_utc_timestamp(timestamp, string timezone) 
该 函数 用 于 将 指定 时 区 的 本 地 时 间 转 换 成 UTC 标准 时 间 。 返 回 类 型 为 TIMESTAMP。 
(34) unix_timestamp(), unix_timestamp(string date), unix_timestamp(string date, string format) 
该 函数 返回 当前 时 间 , 或 者 指定 时 间 与 UNIX 纪元 时 间 之 间 经 历 的 秒 数 。 返 回 类 型 为 BIGINT。 
(35) weekofyear(string date) 
该 函数 返回 字符 串 代表 的 时 间 为 一 年 中 的 第 多 少 周 。 返回 值 范 围 为 1 到 53。 返回 类 型 为 INT。 


(36) weeks add(timestamp date, int weeks), weeks_add(timestamp date, bigint weeks) 
该 函数 返回 时 间 惟 加 上 指定 的 周 数 表 示 的 新 时 间 戳 。 返 回 类 型 为 TIMESTAMP。 
(37) weeks sub(timestamp date, int weeks), weeks_sub(timestamp date, bigint weeks) 
该 函数 返回 时 间 戳 减 去 指定 的 周 数 表 示 的 新 时 间 戳 。 返 回 类 型 为 TIMESTAMP。 
(38) year(string date) 
该 函数 返回 字符 串 指定 的 时 间 的 年 份 。 返 回 类 型 为 INT。 
(39) years_add(timestamp date, int years), years_add(timestamp date, bigint years) 
该 函数 返回 时 间 戳 加 上 指定 的 年 数 表 示 的 新 时 间 戳 。 返 回 类 型 为 TIMESTAMP。 


(40) years_sub(timestamp date, int years), years_sub(timestamp date, bigint years) 
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该 函数 返回 时 间 戳 减 去 指定 的 年 数 表 示 的 新 时 间 戳 。 返 回 类 型 为 TIMESTAMP。 


4.7.4 条 件 函 数 
Impala 支持 以 下 条 件 函 数 用 来 判断 是 否 相等 、 比 较 操 作 符 ， 是 否 为 空 等 。 
(1) CASEa WHEN b THEN c [WHEN d THEN e]... [ELSE f] END 
将 表达 式 与 多 个 可 能 进行 比较 ， 如 果 能 匹配 到 ， 则 返回 相应 的 结果 。 返 回 类 型 与 原始 的 返回 
值 类 型 相同 。 但 如 果 是 整 型 ， 可 能 会 被 提升 为 BIGINT 型 ， 如 果 是 FLOAT 型 ， 可 能 会 被 提升 为 
DOUBLE 型 。 如 果 对 应 的 列 不 允许 像 BIGINT 或 者 DOUBLE 这 样 的 高 精度 的 类 型 ， 需 要 使 用 
CASTO 进 行 强制 转换 。 
(2) CASE WHEN a THEN b [WHEN cTHEN d]... [ELSE e] END 


比较 一 系列 的 表达 式 是 否 为 TRUE， 返回 第 一 个 为 TRUE 的 表达 式 对 应 的 值 。 返 回 类 型 与 原 
始 的 返回 值 类 型 相同 。 但 如 果 是 整 型 ， 可 能 会 被 提升 为 BIGINT 型 ， 如 果 是 FLOAT 型 ， 可 能 会 
被 提升 为 DOUBLE 型 。 如 果 对 应 的 列 不 允许 像 BIGINT 或 者 DOUBLE 这 样 的 高 精度 的 类 型 ， 需 
要 使 用 CASTO 进 行 强制 转换 。 

(3) coalesce(type vl, type v2, ...) 

返回 输入 参数 中 的 第 一 个 非 空 值 ， 如 果 所 有 输入 参数 均 为 NULL， 则 返回 NULL。 

返回 类 型 与 原始 的 返回 值 类 型 相同 。 但 如 果 是 整 型 ， 可 能 会 被 提升 为 BIGINT 型 ， 如 果 是 
FLOAT 型 , 可 能 会 被 提升 为 DOUBLE 型 。 如 果 对 应 的 列 不 允许 像 BIGINT 或 者 DOUBLE 这 样 的 
高 精度 的 类 型 ， 需 要 使 用 CASTO 进 行 强制 转换 。 


(4) if(lboolean condition, type ifTrue, type ifFalseOrNull) 


根据 一 个 表达 式 的 结果 为 TRUE、FALSE、NULL， 来 返回 相应 的 结果 值 。 返 回 类 型 与 输入 
参数 类 型 相同 。 


(5) isnull(type a, type ifNotNull) 
如 果 表 达 式 的 结果 非 空 ， 则 返回 表达 式 的 结果 。 如 果 表达 式 的 结果 为 NULL， 则 返回 第 二 个 
参数 值 。 与 Oracle 中 的 nvl10)，MYSQL 中 的 ifnull0 相 同 。 
(6) ifnull(type a, type ifNotNull) 


函数 isnull0 的 别名 , 与 之 具有 相同 的 行为 . 该 函数 是 为 了 与 传统 数据 库 厂商 的 函数 保持 兼容 。 
自 Impala 1.3.0 起 可 以 使 用 。 
返回 类 型 与 输入 参数 类 型 相同 。 
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(7) nullifexprl,expr2) 


这 个 函数 表示 如 果 两 个 表达 式 相等 ， 则 返回 NULL。 如 果 两 个 表达 式 不 相等 ， 则 返回 第 一 个 
表达 式 的 值 。 两 个 表达 式 的 数据 类 型 必须 保持 兼容 。 另 外 ， 第 一 个 表达 式 不 能 为 NULL， 如 果 它 
为 NULL， 将 永远 不 会 与 第 二 个 表达 式 进 行 匹 配 。 

此 函数 是 以 下 CASE 表达 式 的 简写 : 


该 函数 通常 被 使 用 在 除法 表达 式 中 来 防止 被 除数 为 零 的 情况 。 例 如 : 


自 Impala 1.3.0 起 开始 支持 该 函数 。 返 回 类 型 与 原始 的 返回 值 类 型 相同 。 但 如 果 是 整 型 ， 可 
能 会 被 提升 为 BIGINT 型 ， 如 果 是 FLOAT 型 ， 可 能 会 被 提升 为 DOUBLE 型 。 如 果 对 应 的 列 不 多 
许 像 BIGINT 或 者 DOUBLE 这 样 的 高 精度 的 类 型 ， 需 要 使 用 CASTO 进 行 强制 转换 。 


(8) nullifzero(numeric_expr) 


如 果 表达 式 为 0， 则 返回 NULL; 如 果 表 达 式 为 非 零 ， 则 返回 表达 式 本 身 。 

自 Impala 1.3.0 起 支持 该 函数 。 返 回 类 型 与 原始 的 返回 值 类 型 相同 。 但 如 果 是 整 型 ， 可 能 会 被 
提升 为 BIGINT 型 ， 如 果 是 FLOAT 型 ， 可 能 会 被 提升 为 DOUBLE 型 。 如 果 对 应 的 列 不 允许 像 
BIGINT 或 者 DOUBLE 这 样 的 高 精度 的 类 型 ， 需 要 使 用 CASTO 进 行 强制 转换 。 


(9) nvl(type a, type ifNotNull) 

该 函数 是 isnullO 的 别名 ， 自 Impala 1.1 起 开始 支持 。 

(10) zeroifnull(numeric_expr) 

如 果 表达 式 为 NULL， 则 返回 0， 如 果 表 达 式 为 非 NULL， 则 返回 表达 式 本 身 。 

自 Impala 1.3.0 起 支持 该 函数 。 返回 类 型 与 原始 的 返回 值 类 型 相同 。 但 如 果 是 整 型 ,可 能 会 被 
提升 为 BIGINT 型 ， 如 果 是 FLOAT 型 ， 可 能 会 被 提升 为 DOUBLE 型 。 如 果 对 应 的 列 不 允许 像 
BIGINT 或 者 DOUBLE 这 样 的 高 精度 的 类 型 ， 需 要 使 用 CASTO 进 行 强制 转换 。 

4.7.5 字符 串 函 数 


Impala 支持 以 下 字符 串 函 数 : 
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(1) ascii(string str) 
该 函数 返回 首 字母 的 ASCII 码 的 值 。 返 回 类 型 为 INT。 


(2) char length(string a), character length(string a) 


该 函数 返回 输入 参数 中 字符 串 的 长 度 ， 是 length() 的 别名 。 返 回 类 型 为 INT。 
(3) concat(string a, string b...) 

该 函数 将 所 有 输入 参数 拼接 在 一 起 返回 一 个 单个 字符 串 。 返 回 类 型 为 STRING。 
(4) concat ws(string sep, string a, string b...) 

该 函数 用 于 将 各 输入 参数 以 指定 的 分 隔 符 连 接 在 一 起 。 返 回 类 型 为 STRING。 
(5) find_in_set(string str, string strList) 


返回 一 个 字符 串 在 一 个 逗号 分 隔 的 字符 串 中 第 一 次 出 现 的 位 置 。 如 果 各 参数 都 为 NULL， 则 
返回 NULL。 如 果 没 有 匹配 到 字符 串 或 者 搜索 字符 串 中 包含 了 逗号 ， 则 返回 0， 返 回 类 型 为 INT。 


(6) group_concat(string s [, string sep]) 


该 函数 用 于 拼接 结果 集中 的 每 一 行 返 回 一 个 字符 串 。 如 果 指 定 了 分 隔 符 ， 则 最 终 返 回 的 字符 
串 将 以 指定 的 分 隔 符 分 隔 。 返 回 类 型 为 STRING。concat0 和 concat_ws() 用 于 拼接 同一 行 中 的 不 
同 列 ， 而 group_concat0 用 于 连接 不 同行 。 


(7) initcap(string str) 
该 函数 返回 首 字母 大 写 的 字符 串 。 返 回 类 型 为 STRING。 
(8) instr(string str, string substr) 
该 函数 返回 子 串 在 字符 串 中 第 一 次 出 现 的 位 置 。 返 回 类 型 为 INT。 
(9) length(string a) 
该 函数 返回 字符 串 的 长 度 。 返 回 类 型 为 INT。 
(10) locate(string substr, string str[, int pos]) 


该 函数 返回 子 串 在 字符 串 中 第 一 次 出 现 的 位 置 ， 与 instr() 不 同 的 是 这 个 函数 可 以 指定 从 某 个 
位 置 之 后 开始 匹配 。 返 回 类 型 为 INT。 


(11) lower(string a), lcase(string a) 


该 函数 将 输入 字符 串 改 为 小 写 。 返 回 类 型 为 STRING。 
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(12) lpad(string str int len, string pad) 


该 函数 基于 第 一 个 输入 参数 返回 一 个 指定 长 度 的 字符 串 。 如 果 第 一 个 输入 参数 的 长 度 比 指定 
的 长 度 短 ， 则 以 第 三 个 输入 参数 的 重复 序列 进行 前 导 填充 。 如 果 第 一 个 输入 参数 的 长 度 比 指定 的 
长 度 长 ， 则 从 右 侧 截 断 字符 串 。 返 回 类 型 为 STRING。 


(13) ltrim(string a) 
该 函数 会 去 掉 字 符 串 左 侧 的 空格 。 返 回 类 型 为 STRING。 
(14) parse_url(string urlString, string partToExtract [, string keyToExtract]) 


该 函数 返回 URL 指定 的 部 分 ， 各 部 分 包括 PROTOCOL'、'HOST' 、'PATH' 、'REF'、 
'AUTHORITY'、FILE'、USERINFO', 或 者 QUERY'， 必 须 使 用 大 写 形式 。 当 返回 QUERY' 部 分 时 ， 
我 们 可 以 指定 一 个 键 来 返回 键 值 对 对 应 的 值 。 返 回 类 型 为 STRING 。 

这 个 函数 对 于 传统 的 Hadoop 中 用 来 解析 web 日 志 是 非常 有 效 的 。 我 们 可 以 使 用 这 个 函数 从 
网 络 流量 数据 中 抽取 单独 的 字段 。 


(15) regexp_extract(string subject string pattern, int index) 


该 函数 返回 匹配 正则 表达 式 模式 的 指定 分 组 。 分 组 0 只 的 是 提取 整个 字符 串 。 而 分 组 1、 分 
组 2 等 等 指 的 是 第 一 、 第 二 部 分 。 

Impala 支持 Boost 库 使 用 的 扩展 的 POSIX 正则 表达 式 语法 。 它 与 我 们 在 Perl，Python 中 使 用 
的 非常 类 似 。 它 不 支持 .*? 非 贪 禁 匹 配 。 

以 为 impala-shell 解释 器 使 用 \ 作为 转 义 字符 ， 如 果 需 要 通过 impala-shell 提交 正则 表达 式 需 
要 使 用 \ 作 为 转 义 字符 。 我 们 可 以 使 用 字符 类 名 [[:digit]]， 同 时 也 可 以 使 用 d， 当 然 转 义 过 后 是 \d。 


示例 : 分 组 0 匹配 的 是 整个 字符 串 。 
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Boost 正则 表达 式 语 法 不 支持 .*? 非 贪 禁 匹 配 。 以 下 示例 显示 以 .* 开头 的 字符 串 将 匹配 源 字 
符 串 中 最 长 的 满足 匹配 模式 的 字符 串 ， 本 例 中 就 是 指 以 贪 禁 模式 返回 最 右 侧 的 小 写字 母 囊 。 而 
已 * 作 为 开头 和 结尾 的 匹配 模式 ， 将 会 返回 第 一 个 满足 匹配 模式 的 字符 串 ， 本 例 中 指 的 就 是 返 
最 左 侧 的 小 写字 符 串 ， 也 就 是 我 们 说 的 非 贪 禁 模式 。 


加 


(16) regexp_replace(string initial, string pattern, string replacement) 
本 函数 返回 满足 匹配 模式 的 字符 串 蔡 换 首 个 输入 参数 中 得 子 串 而 得 到 的 字符 串 。 返 回 类 型 为 
STRING。 


示例 : 替换 满足 匹配 模式 的 字符 串 后 得 到 新 的 字符 串 。 


对 包含 匹配 模式 代表 的 原始 字符 串 处 理 后 ， 得 到 新 的 字符 串 。 
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去 除 所 有 非 数 字 的 字符 串 。 


(17) repeat(string str int n) 
该 函数 返回 重复 了 指定 次 数 的 字符 串 。 返 回 类 型 为 STRING。 


(18) reverse(string a) 
该 函数 返回 翻转 顺序 后 的 字符 串 。 返 回 类 型 为 STRING。 


(19) mpad(string str, int len, string pad) 
该 函数 基于 第 一 个 输入 参数 返回 一 个 指定 长 度 的 字符 串 。 如 果 第 一 个 输入 参数 的 长 度 比 指定 
的 长 度 短 ， 则 以 第 三 个 输入 参数 的 重复 序列 进行 右 侧 填充 。 如 果 第 一 个 输入 参数 的 长 度 比 指定 的 
长 度 长 ， 则 从 右 侧 截断 字符 串 。 返 回 类 型 为 STRING。 
(20) rtrim(string a) 
该 函数 会 去 掉 字 符 串 右 侧 的 空格 。 返 回 类 型 为 STRING。 
(21) space(int n) 
该 函数 会 返回 一 个 指定 数目 的 空格 字符 串 ， 可 以 理解 为 repeat(* m) 的 缩写 形式 。 返 回 类 型 为 
STRING。 
(22) strleft(string a, int num_chars) 
该 函数 返回 字符 串 左 侧 指定 数目 的 字母 。 可 以 理解 为 substr0 的 缩写 形式 。 返 回 类 型 为 
STRING。 
(23) strright(string a, int num_chars) 
该 函数 返回 字符 串 右 侧 指定 数目 的 字母 。 可 以 理解 为 substr0 的 缩写 形式 。 返 回 类 型 为 
STRING。 
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(24) substr(string a, int start [, int len]), substring(string a, int start [, int len]) 
该 函数 返回 从 指定 位 置 开 始 返 回 指定 长 度 的 字符 串 的 子 串 。 字 符 串 中 得 字符 的 位 置 从 1 开始 
编号 。 返 回 类 型 为 STRING。 
(25) translate(string input, string from, string to) 
该 函数 返回 将 第 一 个 输入 参数 中 得 子 字 符 串 替换 为 另 一 子 字符 串 后 得 到 的 新 字符 串 。 返 回 类 
型 为 STRING。 


(26) trim(string a) 
该 函数 返回 去 掉 字符 串 首尾 的 空格 后 的 字符 串 。 效 果 与 ltrim0 和 rtrim() 有 车 加 后 的 效果 。 返 
类 型 为 STRING。 


加 


(27) upper(string a), ucase(string a) 
该 函数 将 字符 串 中 的 所 有 字母 转换 成 大 写 。 返 回 类 型 为 STRING。 


4.7.6 ”特殊 函数 
Impala 支持 如 下 不 对 任何 列 进行 操作 的 工具 函数 : 
(1) current_database() 

该 函数 返回 连接 数据 库 的 会 话 当前 的 数据 库 名 称 。 如 果 没 有 切换 到 其 他 数据 库 的 情况 下 ， 为 
默认 数据 库 default。 如 果 使 用 了 USE 或 者 impalad -d 选项 ， 那 么 显示 的 就 是 指定 的 当前 数据 库 。 
返回 类 型 为 STRING。 

(2) pid0) 

该 函数 返回 会 话 连接 到 的 impalad 进程 的 进程 ID。 我 们 可 以 对 该 进程 进行 debug， 或 者 执行 

trace， 显 示 进 程 的 参数 等 等 。 返 回 类 型 为 INT。 


(3) user0 

该 函数 返回 连接 到 imaplad 进程 的 Linux 操作 系统 用 户 的 用 户 名 。 通 常情 况 下， 使 用 不 包含 
FROM 子 句 的 查询 进行 单 次 调用 ， 以 确认 系统 的 授权 设置 。 一 旦 我 们 知道 了 用 户 名 ， 我 们 就 可 以 
检查 用 户 所 属 的 组 , 通过 授权 策略 文件 , 获得 组 中 的 那些 角色 是 可 用 的 信息 .返回 类 型 为 STRING。 


(4) version() 

该 函数 返回 当前 我 们 连接 到 的 impalad 进程 的 编译 日 期 及 精确 的 版 本 号 。 通 常 我 们 使 用 这 个 
函数 来 确认 自己 的 版 本 是 否 具有 特定 的 功能 ， 另 外 也 可 以 确认 所 有 的 imapad 节点 是 否 是 相同 版 
本 。 返 回 类 型 为 STRING。 
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外. 号。 聚集 函数 


聚集 函数 是 按照 一 定 的 规则 对 数据 集 进 行 特定 的 分 类 。 这 些 函 数 将 对 结果 集中 的 所 有 结果 进 
行 遍 历 并 返回 一 个 结果 。 

聚集 函数 总 是 在 运算 时 忽略 对 NULL 值 的 计算 ， 以 避免 运算 结果 出 现 NULL 值 。 比 如 :如 果 
参与 求 平均 AVG(0 运 算 的 某 些 行 包含 NULL 值 ， 如 果 NULL 参与 该 运算 ， 计 算出 的 结果 会 是 
NULL， 这 显然 是 不 合 实际 的 。 另 外 ，COUNT(col_name) 的 运算 也 同样 是 仅 对 col_name 中 的 非 空 
值 进行 COUNT。 


示例 : 


本 部 分 将 以 学 生 表 为 例 来 说 明 聚集 函数 的 用 法 。id 为 学 生 的 学 号 ，english 为 英语 成 绩 ，math 
为 数学 成 绩 ，mf 为 性 别 ，M 为 男生 ，F 为 女生 。 


4.8.1 AVG 

求 平均 函数 用 于 返回 一 组 数字 结果 集 的 平均 值 。 它 唯一 的 参数 可 以 是 数字 列 ， 返 回 数 字 的 函 
数 或 者 表达 式 。 在 运算 时 ， 列 中 得 NULL 值 将 被 忽略 。 如 果 是 一 个 空 表 ,或 者 求 平均 的 列 的 值 均 
为 NULL，AVG 将 会 返回 NULL。 

当 查 询 使 用 了 GROUP BY 后 ， 则 GROUP BY 的 每 个 聚集 将 会 返回 一 个 值 。 

该 函数 的 返回 类 型 为 DOUBLE。 


示例 : 计算 男生 和 女生 的 平均 数学 成 绩 。 
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4.8.2 COUNT 


该 聚集 函数 用 于 返回 记录 的 条 数 。 对 于 该 函数 ， 我 们 需要 明确 : 


。 COUNT(*) 会 将 NULL 的 行 计算 在 内 。 

e COUNT(col name) 只 会 计算 col name 为 非 NULL 行 的 记录 。 

e 我 们 可 以 先进 行 DISTINCT 去 除 某 列 或 者 某 几 列 的 重复 值 ， 在 对 DISTINCT 的 结果 进行 
COUNT， 可 以 计算 某 列 或 者 某 几 列 的 非 重 复 值 的 个 数 。 


当 查 询 使 用 了 GROUP BY 后 ， 则 GROUP BY 的 每 个 聚集 将 会 返回 一 个 值 。 
该 函数 返回 类 型 为 DOUBLE。 


示例 : 计算 全 班 的 总 人 数 。 


计算 本 班 男 女生 人 数 : 
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4.8.3 GROUP _ CONCAT 

该 函数 将 结果 集中 得 每 行 记录 拼接 成 一 个 字符 串 。 如 果 指 定 了 分 隔 符 ， 拼 接 的 时 会 以 指定 的 
分 隔 符 进行 分 隔 。 

默认 情况 下 ， 该 函数 会 对 整个 结果 集 拼接 成 一 个 字符 串 。 为 了 包含 结果 集中 的 其 他 列 ， 或 者 
需要 产生 多 个 子 集 拼接 的 多 个 字符 串 ， 需 要 对 查询 使 用 GROUP BY 子 句 。 

该 函数 返回 类 型 为 STRING 。 


示例 : 列 出 本 班 男生 和 女生 的 学 号 。 


4.8.4 MAX 

该 函数 用 于 返回 一 组 数字 结果 集中 的 最 大 值 。 它 唯一 的 输入 参数 可 以 是 数字 列 ， 返 回 数 字 的 
函数 或 者 表达 式 等 。 在 计算 时 ， 包 含 的 NULL 的 行将 会 被 忽略 。 如 果 表 为 空 表 , 或 者 列 中 所 有 的 
值 均 为 NULL， 函 数 的 返回 结果 就 为 NULL。 

当 查 询 使 用 了 GROUP BY 后 ， 则 GROUP BY 的 每 个 聚集 将 会 返回 一 个 值 。 

该 函数 的 返回 类 型 与 输入 参数 的 类 型 相同 。 

示例 : 计算 本 班 男女 生 数 学 最 高 分 。 
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4.8.5 MIN 

该 函数 用 于 返回 一 组 数字 结果 集中 的 最 小 值 。 它 唯一 的 输入 参数 可 以 是 数字 列 ， 返 回 数字 的 
函数 或 者 表达 式 等 。 在 计算 时 ， 包 含 NULL 的 行将 会 被 忽略 。 如 果 表 为 空 表 ， 或 者 列 中 所 有 的 值 
均 为 NULL， 函 数 的 返回 结果 就 为 NULL。 

当 查 询 使 用 了 GROUP BY 后 ， 则 GROUP BY 的 每 个 聚集 将 会 返回 一 个 值 。 

该 函数 的 返回 类 型 与 输入 参数 的 类 型 相同 。 

示例 : 计算 本 班 男女 生 数学 最 低 分 。 


4.8.6 NDV 

该 函数 返回 与 COUNT(DISTINCT col) 的 结果 近似 的 数值 ， 即 非 重 复 值 的 个 数 。 它 运算 的 速度 
要 快 于 COUNT(DISTINCT col), 因为 它 使 用 固定 大 小 的 内 存 进 行 运算 , 对 于 基数 非常 大 的 结果 求 
非 重 复 值 个 数 ， 将 大 大 节省 内 存 资 源 的 使 用 。 

这 个 函数 运算 的 机 制 与 Impala 底层 处 理 COMPUTE STATS 语句 计算 一 个 列 的 非 重 复 值 的 个 
数 的 方式 相同 。 

由 于 该 函数 返回 的 值 为 一 个 估计 值 ， 尤 其 在 基数 非常 高 或 者 非常 低 得 时 候 ， 它 可 能 不 能 精确 
地 反映 一 列 有 多 少 个 不 重复 的 行 。 但 是 如 果 该 函数 返回 的 结果 比 表 中 的 行 数 还 要 多 ，Impala 在 生 
成 执行 计划 时 会 自动 调整 该 值 。 

该 函数 的 返回 类 型 为 BIGINT。 


示例 : 计算 本 班 男女 生 不 重复 的 英语 成 绩 的 个 数 。 
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4.8.7 SUM 

该 函数 用 于 返回 一 组 数字 结果 集 的 和 。 它 唯一 的 输入 参数 可 以 是 数字 列 ， 返 回 数字 的 函数 或 
者 表达 式 等 。 在 计算 时 ， 包 含 的 NULL 的 行将 会 被 忽略 。 如 果 表 为 空 表 ， 或 者 列 中 所 有 的 值 均 为 
NULL， 函 数 的 返回 结果 就 为 NULL。 

当 查 询 使 用 GROUP BY 后 ， 则 GROUP BY 的 每 个 聚集 将 会 返回 一 个 值 。 

该 函数 的 返回 类 型 为 BIGINT 〈 输 入 参数 为 整数 ) 或 者 DOUBLE (输入 参数 为 浮 点 数 )。 

示例 : 计算 本 班 男女 生 数学 总 分 。 


人. 日 ”用 户 自 定义 函数 UDF 


Impala 的 UDF 允许 我 们 自己 编写 应 用 逻辑 用 于 处 理 列 值 。 比 如 ，UDEF 可 以 引用 外 部 算法 库 ， 
将 多 列 值 合成 一 列 ， 进 行 地 理 空间 运算 或 者 其 他 内 区 的 SQL 操作 符 或 者 函数 无 法 完成 的 运算 。 
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我 们 可 以 使 用 UDF 来 简化 生成 报表 的 查询 逻辑 ， 也 可 以 在 NSERT .… SELECT 拷贝 数据 时 
对 数据 进行 灵活 的 转化 处 理 。 这 与 其 他 传统 数据 库 中 的 存储 过 程 或 者 自 定义 函数 也 很 类 似 。 
Impala 自 1.2 版 本 开始 支持 UDF: 


e@ 在 Impala 1.1 中 ， 查 询 中 使 用 UDF 需要 使 用 Hive shell， 因 为 Impala 和 Hive 共享 同一 个 
元 数据 库 。 我 们 可 以 切换 到 Hive shell 中 执行 带 有 UDF 的 查询 ， 再 返回 到 Impala 的 shell 
中 

。 自 Impala 1.2 开始 ，Impala 既 可 以 支持 基于 C++ 本 地 代码 编写 的 高 性 能 UDF， 也 可 以 支 
持原 有 的 基于 Java 的 Hive UDF。 

e@ UDF 为 结果 集中 的 每 一 行 返回 一 个 值 ， 而 用 户 自 定 义 的 聚集 函数 UDAF， 可 以 为 一 个 结 
果 集 返回 一 个 值 。 目 前 ，Impala 不 支持 用 户 自 定 义 的 表 函 数 和 窗口 函数 。 


4.9.1 UDF 概念 


根据 我 们 的 使 用 情况 ， 我 们 可 以 编写 全 新 的 函数 ， 重 用 已 经 写 好 的 基于 Java 的 UDF， 或 者 
将 基于 Java 的 Hive UDF 移植 到 基于 C++ 的 Impala 本 地 UDF 上 。 我 们 既 可 以 编写 为 每 行 记录 返 
回 一 行 的 标量 函数 ， 也 可 以 编写 用 于 分 析 处 理 的 复杂 聚集 函数 。 下 面 ， 我 们 将 讨论 使 用 UDF 的 
方方面面 。 

1.UDF 和 UDAF 


在 大 多 数 情况 下 ， 我 们 使 用 UDF 为 每 行 记录 返回 一 个 值 。 当 将 其 使 用 在 查询 中 时 ， 针 对 结 
果 集中 的 每 行将 调用 一 次 。 
UDAF 则 是 为 一 组 记录 返回 一 个 值 。 我 们 使 用 UDAF 可 以 像 使 用 内 嵌 的 COUNT、MAX0、 
SUMO、AVG() 一 样 汇总 、 压 缩 结果 集 。 
2. 本 地 Impala UDF 
Impala 支持 的 UDF 以 C++ 书写 ， 另 外 也 支持 已 经 存在 的 Hive UDF。Cloudera 推荐 使 用 C++ 
编写 的 UDF， 因 为 使 用 本 地 代码 编译 ， 性 能 往往 比 Java 编写 的 UDF 高 数 十 倍 。 
3. 使 用 Hive UDF 
在 Impala 中 使 用 Hive UDF 需要 具备 以 下 条 件 : 
(1) 参数 和 返回 值 必须 是 Impala 支持 的 数据 类 型 。 比 如 ， 内 嵌 类 型 或 者 复合 类 型 ，Impala 
就 不 支持 。 
(2) 目前 ， 如 果 Hive UDF 输入 参数 和 返回 类 型 为 TIMESTAMP 将 不 被 支持 。 
(3) 返回 的 类 型 必须 是 像 Text 或 者 IntWritable 一 样 的 “Writable” 的 类 型 ， 而 不 是 像 String 
或 者 Int 一 样 的 Java 原生 的 数据 类 型 。 否 则 ，UDF 将 返回 NULL。 
(4) Hive UDAF 和 UDTEF 不 被 支持 。 
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(5) 通常 情况 下 ，Java UDF 要 比 本 地 Impala UDF 慢 数 倍 。 


为 了 更 好 的 发 挥 Impala 架构 的 性 能 优势 ， 强 烈 建议 使 用 基于 C++ 的 本 地 Impala UDF。 
理解 怎样 在 Impala 中 重用 基于 Java 的 UDF 最 好 的 方式 就 是 把 Hive 内 嵌 函 数 和 相关 的 JAR 
包 部 署 在 Impala 上 ， 创 建新 的 不 同名 称 的 UDF 。 


(1) 拷贝 包含 Hive 内 和 嵌 函 数 的 JAR 包 。 例 如 ，JAR 的 路 径 为 /usr/lib/hive/lib/hive-exec-0. *. 
*-cdh*.*.0jar， 此 处 的 * 代 表 版 本 信息 。 

(2) 使 用 jar tfjar_file 查看 JAR 内 部 的 类 列表 。 我 们 将 看 到 形 如 org/apache/hadoop/hive/ql/udfy 
UDFLower.class 和 org/apache/hadoophive/qludBUDFOPNegative.class 这 样 的 类 名 称 。 记 住 我 们 想 
修改 的 函数 的 名 称 对 应 类 名 。 我 们 需要 在 Impala 中 为 CREATE FUNCTION 语句 提供 访问 入 口 ， 
就 是 把 上 述 的 / 换 成 . 并 去 掉 .class 的 后 级 ， 也 就 是 org.apache.hadoop.hive.ql.udfUDFLower 和 
org.apache.hadoop.hive.ql.udf.UDFOPNegative。 

(3) 拷贝 该 文件 到 Impala 能 够 读 取 的 HDFS 的 某 个 位 置 。 为 了 简单 起 见 ， 我 们 可 以 将 jar 
文件 命名 为 hive-builtins.jar。 

(4) 对 于 每 一 个 我 们 想 通过 Impala 调用 的 Java UDF， 我 们 都 要 执行 CREATE FUNCTION 
语句 , 该 语句 的 LOCATION 子 名 指定 JAR 文件 在 HDFS 上 的 全 路 径 , SYMBOL 子 句 指定 完整 的 
类 名 称 。 另 外 ， 需 要 注意 的 是 ，UDF 需要 将 其 定义 存在 指定 的 数据 库 中 ， 所 以 如 果 要 调用 这 个 
UDF， 我 们 需要 先 使 用 USE 切换 到 指定 的 数据 库 ， 或 者 通过 db_name.function_name 来 调用 。 定 
义 是 函数 必须 使 用 全 新 的 名 称 ， 因 为 UDF 不 能 和 内 翌 的 函数 重 名 。 

(5) 为 我 们 定义 的 UDF 输入 正确 类 型 的 参数 ， 就 可 以 在 查询 中 进行 调用 了 。 传 入 的 参数 可 
以 是 表 列 ， 算 术 运 算 或 者 表达 式 。 另 外 ， 我 们 也 可 以 对 函数 使 用 CASTO， 将 其 转换 为 我 们 需要 的 
类 型 。 


示例 : 重用 Java UDF lower()。 
在 如 下 的 impala-shell 会 话 中 ， 我 们 创建 了 一 个 Impala UDF ， 名称 为 my_lower()。 它 重用 了 
Hive 的 内 婴 函 数 lower()。 创 建 完成 后 ， 我 们 就 可 以 在 SQL 中 使 用 该 UDF 了 。 
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示例 : 重用 Java UDF negative()。 
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如 下 示例 演示 如 何 重 用 Hive 的 内 嵌 函 数 negative0。 这 个 例子 告诉 我 们 函数 的 输入 参数 的 类 
型 必须 严格 与 函数 签名 匹配 。 首 先 ， 我 们 创建 了 一 个 可 以 接收 整 型 参数 的 UDF。 如 果 给 这 个 UDF 
强制 传 入 一 个 浮 点 数 ，Impala 将 会 报错 。 要 解决 这 个 问题 ， 要 么 我 们 将 浮 点 数 强制 转换 为 整 型 数 ， 
或 者 对 函数 进行 重 载 ， 实 现 一 个 可 传 入 浮 点 类 型 的 同名 函数 。 
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4.9.2 安装 UDF 开发 包 


为 了 能 够 在 Impala 上 开发 UDF， 我 们 需要 安装 包含 头 文件 、 样 例 代 码 、 编 译 配置 文件 的 
impala-udf-devel 包 。 在 http://archive.cloudera.com/impala/ 网 页 上 找到 与 自己 操作 系统 版 本 匹配 的 文 
件 夹 ， 进 入 之 后 会 发 现 .repo 文件 。 根 据 不 同 的 操作 系统 ， 我 们 可 以 使 用 yum、zypper、apt-get 等 
工具 安装 名 称 为 impala-udf-devel 的 包 。 

当 我 们 准备 编写 自己 的 UDF 时 , 我们 可 以 从 https://github.com/cloudera/impala-udf-samples 网 
页 上 下 载 样 例 代码 和 编译 脚本 。 


4.9.3 ”编写 UDF 
在 我 们 进行 UDF 的 开发 之 前 ， 需 要 确认 是 否 已 安装 了 相应 的 安装 包 并 下 载 了 示例 代码 。 
在 编写 UDF 时 : 


日 在 从 SQL 向 UDF 中 传 入 参数 时 ， 两 者 的 数据 类 型 是 否 相 同 。 比 如 ， 在 UDF 中 ， 我 们 可 
能 更 关注 传 入 的 整 型 参数 是 TINYINT、SMALLINT、INT 还 是 BIGINT。 

@ 使 用 面向 函数 编程 思想 : 选择 合适 的 输入 参数 ， 让 每 个 函数 完成 一 个 独立 的 功能 。 

1. UDF 编程 例子 


为 了 了 解 成 员 变 量 ， 预 定义 UDF 数据 类 型 等 信息 ， 我 们 可 以 查看 头 文件 
/ust/include/impala_udf/udf.h。 


对 于 编写 一 个 标量 UDF 需要 的 基本 的 声明 ， 我 们 可 以 查看 udf-sample.h。 这 个 文件 中 定义 了 
一 个 名 称 为 AddUdfo 的 示例 函数 。 


示例 函数 AddUdfO 的 源 代码 对 应 的 源 文件 名 称 为 udfsample.cc 


每 个 UDF 的 输入 参数 和 返回 值 都 必须 能 够 和 表 列 对 应 的 SQL 数据 类 型 相 匹配 。 
每 个 数据 类 型 无 论 在 C++ 还 是 Java 头 文件 中 都 有 一 个 结构 体 定义 在 结构 体 中 定义 成 员 字段 
和 预定 义 的 比较 操作 符 和 构造 函数 : 


(1) is_null 表示 值 是 否 为 空 。 当 返回 值 非 空 时 ，val 处 理 过 参数 值 就 是 其 原始 值 。 
(2) 每 个 结构 体 都 可 以 定义 一 个 叫做 null0 的 成 员 方 法 。 这 个 方法 可 以 根据 is_null 标志 
构造 一 个 结构 体 的 实例 。 
(3) 像 < 、> 、= 、BETWEEN 、ORDER BY 等 比较 操作 符 或 者 语句 都 可 以 在 UDF 中 正 
常 工作 。 比 如 ， 无 须 在 UDF 中 特别 的 声明 或 处 理 ，Impala 可 以 识别 并 计算 像 BETWEEN 1 AND 
udf retuming_int(coll) 或 者 ORDER BY udf returning_string(col2) 这 样 的 语句 。 
为 了 更 方便 的 对 结构 体 进行 比较 ， 每 个 结构 体 定义 了 操作 符 二 和 != 用 于 比较 同类 型 的 结构 
体 。 这 种 比较 与 SQL 本 身 无 关 ， 指 的 是 C++ 语法 的 比较 。 比 如 ， 如 果 两 个 结构 体 中 都 包含 成 员 变 
量 is_null， 而 且 该 标志 位 的 值 都 是 NULL， 则 也 认为 这 两 个 结构 体 的 比较 是 相等 的 。 这 与 SQL 中 
NULL 的 比较 的 结果 完全 不 同 。 
(4) 每 种 结构 体 都 有 一 个 或 者 多 个 构造 方法 来 定义 结构 体 的 实例 。 
(5) 目前 不 能 使 用 内 翌 类 型 或 者 复合 类 型 作为 UDF 的 输入 参数 和 返回 值 。 
(6) 我 们 可 以 使 用 不 同 的 函数 签名 重 载 一 个 UDF。 
在 C++ 中 数据 类 型 的 定义 对 应 如 下 : 


e IntVal 对 应 INT。 

e BigIntVal 对 应 BIGINT。 即 使 我 们 不 需要 BIGINT 那么 大 的 范围 ， 使 用 BigIntVal 作为 函 
数 参数 可 以 很 方便 地 调用 不 同类 型 的 整 型 数据 或 者 表达 式 。 因 为 Impala 可 以 自动 地 从 范 
围 比较 小 的 类 型 向 范围 比较 大 的 类 型 转换 却 不 能 隐 式 的 将 一 个 范围 比较 大 的 类 型 转换 为 
范围 比较 小 的 类 型 。 

e SmallIntVal 对 应 SMALLINT. 
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e。 TinyIntVal 对 应 TINYINT。 

e StringVal 对 应 STRING.。 它 有 一 个 len 字段 表示 字符 串 的 长 度 ，prt 字段 指向 String 数据 的 
地 址 。 他 拥有 一 个 构造 函数 可 以 基于 一 个 C 格式 的 字符 串 ， 也 可 以 基于 一 个 地 址 指针 和 
长 度 创建 一 个 新 的 StringVal 结构 体 。 这 些 新 的 结构 体 仍 然 是 指向 原来 的 数据 ， 而 不 是 分 
配 一 个 新 的 数据 缓冲 区 。 它 也 拥有 一 个 带 有 FunctionContext 结构 体 和 长 度 指针 的 构造 函 
数 ， 这 允许 不 必 为 新 的 字符 囊 数据 分 配 新 的 空间 即 可 从 UDF 返回 字符 串 数据 。 
BooleanVal 对 应 BOOLEAN。 

FloatVal 对 应 FLOAT。 

DoubleVal 对 应 DOUBLE。 

TiemstampVal 对 应 TIMESTAMP。 它 拥有 一 个 date 字段 ， 使 用 32 位 整数 记录 自 UNIX 
纪元 时 间 经 历 的 天 数 . 它 还 有 一 个 time_of day 字段 , 使 用 64 位 整数 记录 到 当前 时 间 经 历 
的 纳 秒 数 。 


3. 可 变 长 参数 列表 


UDF 通常 都 使 用 固定 数目 的 参数 ， 每 一 个 参数 都 在 函数 签名 中 显示 声明 。 另 外 ，UDF 还 可 
以 接受 相同 类 型 的 可 选 参 数 。 比 如 ， 我 们 可 以 将 两 个 ， 三 个 ， 四 个 ， 甚 至 更 多 字符 串 合并 。 或 者 
我 们 可 以 比较 两 个 ， 三 个 ， 四 个 ， 甚 至 多 个 数字 。 

为 了 接受 可 变 长 的 参数 列表 ， 代 码 中 函数 的 签名 应 该 形 如 : 

StringVal Concat (FunctionContext* context, const StringVal& separator, 

int num var args, const StringVal* args); 


在 SQL 查询 中 调用 时 ， 我 们 必须 为 可 变 长 的 参数 部 分 提供 至 少 一 个 参数 。 
当 Impala 调用 该 函数 时 ， 它 首先 会 初始 化 必 选 参数 ， 然 后 通过 可 选 参数 的 数目 和 指向 首 个 可 
选 参数 的 指针 提取 所 有 的 可 选 参数 。 


4. 捕获 NULL 值 


从 正确 性 、 性 能 和 可 靠 性 的 角度 考虑 ，UDEF 可 以 正常 地 处 理 输入 参数 中 的 NULL 值 是 非常 重 
要 的 。 例 如 ， 当 给 函数 传 入 一 个 NULL 值 时 ， 它 会 返回 一 个 NULL 值 。 在 一 个 聚集 函数 中 ， 它 必 
须 能 够 将 具体 数值 和 NULL 一 起 处 理 ,这 种 处 理 可 能 是 返回 NULL( 比 如 CONCATO), 忽略 NULL 
值 (比如 AVG0)， 或 者 将 其 作为 0 或者" 空 字符 串 对 待 。 

像 IntVal 或 者 StringVal 这 样 的 每 一 个 参数 类 型 ， 都 有 一 个 is_null 布尔 成 员 。 为 每 一 个 函数 的 
输入 参数 测试 这 个 标志 位 , 如 果 设 置 了 这 个 标志 位 , 就 不 会 指向 val 字段 。 如 果 输入 参数 为 NULL， 
val 字段 就 不 会 被 定义 , 我 们 的 函数 可 能 因此 进去 无 线 循环 或 者 产生 不 正确 的 结果 。 因 为 , 我 们 必 
须 捕获 处 理 输 入 参数 为 NULL 的 情况 。 

如 果 我 们 输入 参数 为 NULL， 返 回 NULL 值 。 在 另外 一 些 情况 下 ， 比 如 我 们 搜索 一 个 字符 串 
但 是 没有 找到 ， 我 们 也 可 以 使 用 isnull0 成 员 函 数 构造 一 个 指定 返回 类 型 的 空 的 实例 。 
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5. UDF 的 内 存 分 配 


默认 情况 下 ， 当 函数 退出 时 ，UDF 释放 内 存 ， 这 个 过 程 可 能 在 查询 结束 之 前 就 开始 进行 了 。 

函数 的 输入 参数 与 函数 本 身 具有 相同 的 生命 周期 ， 因 为 我 们 可 以 在 包含 返回 值 的 表达 式 中 引 
用 它们 。 如 果 我 们 使 用 临时 变量 构造 一 个 全 新 的 字符 串 , 我 们 需要 使 用 一 个 FunctionContext* 初 始 
化 参数 和 一 个 长 度 的 StringVal0 的 构造 器 ， 然 后 将 数据 拷贝 到 新 的 内 存 缓冲 区 中 。 


6. UDF 线程 安全 工作 区 


提升 UDF 性 能 的 一 种 方式 就 是 在 CREATE FUNCTION 语句 中 指定 PREPARE FN 和 
CLOSE FN。PREPARE 函数 在 内 存 中 创建 一 个 线程 安全 的 数据 结构 ， 我 们 可 以 把 它 作为 工作 区 
使 用 。 CLOSE 函数 则 负责 释放 这 块 内 存 。 后 续 每 次 在 同一 线程 内 的 调用 都 可 以 访问 相同 的 内 存 区 
域 。 在 UDF 使 用 多 个 线程 时 ， 在 同一 主机 上 可 能 有 多 个 这 样 的 内 存 区 域 。 

在 这 个 内 存 区 域 中 , 我 们 可 以 预定 义 查找 表 ， 也 可 以 记录 像 STRING 或 者 TIMESTAMP 这 样 
数据 类 型 的 复杂 操作 的 结果 。 我 们 如 果 能 够 保存 之 前 的 运算 结果 ， 就 可 以 避免 每 次 对 需要 的 结果 
重新 计算 ， 大 大 提高 效率 。 例 如 ， 对 包含 很 多 重复 值 的 某 列 执行 正则 表达 式 匹配 或 者 日 期 函数 操 
作 ， 如 果 没 有 工作 区 ， 我 们 需要 每 次 都 对 相同 的 值 执行 重复 的 运算 。 而 在 工作 区 中 ， 我 们 可 以 通 
过 缓存 最 近 计算 的 记录 或 者 对 已 经 计算 过 的 值 建立 一 张 哈 希 表 ， 对 于 那些 重复 值 就 不 再 需要 重复 
的 运算 ， 直 接 在 工作 区 中 进行 查找 即 可 获得 需要 的 结果 。 

每 个 这 样 的 函数 必须 有 以 下 签名 : 


目前 ， 只 有 THREAD_SCOPE 部 分 实现 了 ， 而 FRAGMENT_SCOPE 部 分 没有 实现 。 我 们 可 
以 从 udfH 中 了 解 更 多 细节 。 


7. UDF 错误 捕获 


为 了 捕获 UDEF 错误 ， 我 们 需要 将 初始 化 参数 FunctionContext* 的 成 员 传递 给 我 们 的 函数 。 
UDF 可 以 记录 警告 信息 ， 而 对 于 那些 不 重要 的 、 可 恢复 的 警告 信息 不 会 导致 Impala 终止 查 
询 。 函 数 的 签名 形 如 : 


对 于 那些 可 能 导致 查询 终止 的 严重 问题 UDF 可 以 设置 一 个 错误 标志 位 来 阻止 查询 继续 进 
行 。 函 数 的 签名 形 如 : 


4.9.4 ”编写 UDAF 
UDAF 需要 为 后 续 的 调用 维护 一 个 状态 值 ， 因 为 它 是 对 一 个 结果 集 的 一 组 调用 返回 的 累计 
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值 。 因 此 ，UDAEF 必须 包含 以 下 功能 : 


一 个 初始 化 函数 用 于 完成 计数 器 清 零 ,创建 内 存 缓冲 区 和 其 他 查询 执行 前 的 初始 化 操作 。 
一 个 更 新 函数 用 于 处 理 查询 结果 集 的 每 行 记录 ， 并 对 每 个 节点 的 中 间 结 果 进 行 累 计 。 

一 个 合并 函数 用 于 将 不 同 节 点 的 中 间 结 果 进 行 合并 。 

一 个 结束 函数 用 于 完成 最 终 转换 或 者 结果 合并 。 


按照 SQL 的 语法 ， 我 们 可 以 使 用 CREATE AGGREATE FUNCTION 语句 创建 UDAF。 我 们 
可 以 使 用 INIT_FN、UPDATE FN、MERGE _FN、FINALIZE_FN 来 调用 C++ 底层 函数 。 

方便 起 见 ， 我 们 可 以 使 用 对 底层 函数 的 命名 约定 来 命名 函数 ， 这 样 Impala 会 自动 匹配 到 这 些 
函数 。 比 如 ， 对 于 UPDATE_FN， 我 们 可 以 使 用 update 或 者 Update 来 命名 。 

uda-sample.h 


uda-sample.cc: 
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4.9.5 编译 和 部 署 UDF 


本 部 分 介绍 编译 Impala UDF 的 C++ 代码 ， 部 署 代码 库 ， 并 将 其 使 用 在 Impala 的 查询 中 。 

Impala 自 带 了 一 个 UDF 示例 编译 环境 ， 我 们 可 以 在 这 个 环境 上 编译 ， 测 试 自己 的 UDF。 在 
示例 编译 环境 中 ， 我 们 首先 执行 cmake 命令 ， 它 将 读 取 CmakeLists.txt 文件 ， 并 在 指定 的 路 径 生 
成 Makefile 文件 。 然 后 ， 我 们 执行 make 命令 ， 它 将 依据 Makefile 中 定义 的 规则 来 执行 真正 的 编 
译 过 程 。 

Impala 从 HDFS 上 来 加 载 共享 库 。 在 编译 了 包含 一 个 或 者 多 个 UDF 的 共享 库 之 后 ， 我 们 可 
以 使 用 hdfs dfs 或 者 hadoop 人 命令 将 二 进 制 文件 拷贝 到 Impala 具有 可 读 权限 的 HDFS 的 某 个 位 置 
于。 

最 后 的 步骤 就 是 在 impala-shell 解释 器 中 执行 CREATE FUNCTION 语句 。 

在 我 们 更 新 了 UDF 代码 或 者 重新 部 署 了 新 版 本 的 共享 库 之 后 ， 为 了 让 函数 识别 到 最 新 的 代 
码 ， 我 们 需要 使 用 DROP FUNCTION 和 CREATE FUNCTION 重建 该 函数 。 

编译 环境 需要 的 包 及 安装 命令 如 下 : 


® sudo yum install gcc-c++ cmake boost-devel 
® sudo yum install impala-udf-devel 


然后 ， 我 们 解压 示例 代码 udf_samples.tar.gz， 将 其 作为 一 个 模板 生成 编译 环境 。 
为 了 编译 原始 的 示例 代码 : 


cmake 
make 


示例 代码 将 对 以 下 文件 进行 检查 ， 确 认 : 


(1) udfsampleh: 声 明 标量 UDF 签名 的 头 文件 。 

(2) udfsample.cc: 一 个 简单 的 将 两 个 整数 相 加 的 示例 UDF 源 代码 。 因 为 Impala 可 以 对 同一 
个 共享 库 引 用 多 个 函数 ， 所 以 我 们 可 以 将 其 他 的 UDF 添加 到 这 个 文件 中 ， 同 时 将 它们 的 函数 签 
名 添加 到 相关 的 头 文件 中 。 

(3) udfsample-testcc: 示 例 UDF 的 单元 测试 用 例 。 

(4) uda-sampleh: 声 明 UDATF 的 签名 的 头 文件 。 这 些 函 数 是 COUNT、AVG 和 STRINGCONCAT。 
因为 聚集 函数 需要 使 用 更 详细 的 代码 捕获 不 同 的 处 理 过 程 ， 所 以 其 中 包含 了 像 CountInit、 
AvgUpdate、StringConcatFinalize 等 底层 函数 。 

(5) uda-sample.cc:UDAEF 示例 源 代 码 , 用 来 演示 在 底层 函数 被 调用 的 不 同 阶段 如 何 进行 状态 
转换 。 


UDAF 模拟 COUNT 函数 跟踪 一 个 递增 的 数字 ; 在 每 个 Impala 节点 合并 中 间 结 果 ; 并 将 最 终 
合并 的 结果 返回 。 
UDAF 模拟 AVG 函数 跟踪 两 个 数字 ， 一 个 是 处 理 的 记录 的 行 数 ， 一 个 是 该 列 所 有 值 的 和 ; 
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这 些 值 像 COUNT 处 理 过 程 一 样 更 新 合并 中 间 结 果 ; 最 终 返 回 两 个 数字 相 除 的 结果 ， 也 就 是 平均 
值 。 
UDAEF 将 不 同行 的 值 拼接 成 一 个 以 逗号 分 隔 的 字符 串 ， 这 个 示例 演示 了 在 对 多 行 处 理 时 ， 如 
何 对 长 度 递增 的 字符 串 进行 存储 管理 。 
(6) uda-sample-testcc: 示 例 UDAEF 的 单元 测试 用 例 。 


4.9.6 UDF 性 能 


通常 情况 下 ，UDF 要 对 表 中 的 每 一 行进 行 处 理 。 如 果 ETL 或 者 ELT 的 数据 量 有 十 亿 条 ， 那 
么 UDF 也 会 处 理 十 亿 次 。ETL 或 者 ELT 整体 的 速度 将 会 成 为 影响 UDF 效率 的 关键 因素 。 对 于 一 
个 对 海量 数据 集 反 复 调 用 的 UDF， 我 们 对 函数 体 任何 细小 的 优化 ， 都 可 能 带 来 巨大 的 性 能 提升 。 


4.9.7 ”创建 和 使 用 UDF 示例 
本 部 分 将 演示 如 何 创建 和 使 用 不 同类 型 的 UDF。 
C++ UDF 示例 : HasVowels，CountVowels，StripVowels。 


该 示例 演示 的 是 三 个 对 字符 串 进行 操作 并 返回 不 同 数据 类 型 返回 值 的 UDF。 在 C++ 代码 中 ， 
函数 分 别 为 HasVowels0〈 检 查 字 符 串 中 是 否 包含 元 音字 母 )，CountVowels0 〈 返 回 字符 串 中 元 音 
字母 的 个 数 )，StripVowels0 返回 一 个 去 掉 了 所 有 元 音字 母 的 字符 串 )。 

首先 ， 我 们 要 将 这 些 函 数 的 签名 添加 到 udfsample.h 的 头 文件 中 : 


然后 ， 我 们 将 函数 体 添 加 到 udf-sample.ce 中 : 
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我 们 编译 共享 库 libudfsample.so， 并 将 库 文件 上 传 到 Impala 有 读 权限 的 HDFS 上 : 


最 后 ， 我 们 在 impala-shell 解释 器 中 执行 CREATE FUNCTION 语句 ， 创 建 该 UDF: 
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C++ UDAF 示例 : SumOfSquares。 


该 示例 演示 了 一 个 用 户 自 定义 的 对 输入 值 求 平方 和 的 聚集 函数 。 

UDAF 的 编码 与 标量 UDF 的 编码 有 些 不 同 。 因 为 UDAEF 将 其 划分 为 不 同 的 处 理 过 程 ， 而 每 
个 过 程 使 用 不 同 的 函数 实现 。 像 其 中 的 UPDATE 和 MERGE 阶段 是 比较 简单 的 , 主要 是 负责 读 取 
输入 值 ， 并 将 中 间 累 计 结 果 进 行 合并 。 

与 之 前 的 标量 UDF 类 似 ， 我 们 需要 将 函数 的 签名 添加 到 头 文件 中 本 示例 中 是 将 其 添加 到 
uda-sample.h 中 )。 因 为 UDAF 都 涉及 数学 运算 ， 所 以 我 们 需要 实现 两 个 函数 的 版 本 ， 一 个 是 接收 
整 型 数据 的 ， 一 个 是 接收 浮 点 型 数据 的 。 


我 们 将 函数 体 添加 到 C++ 源 文件 中 本 例 中 为 uda-sample.ce): 
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然后 ， 我 们 编译 共享 库 ， 并 将 其 上 传 到 HDFS 上 : 
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之 后 ,我 们 在 impala-shell 解释 器 中 执行 CREATE AGGREAGTE FUNCTION 语 句 , 完 成 UDAF 
的 创建 : 


到 目前 为 止 , 我 们 的 UDAF 只 能 接收 整 型 数据 作为 输入 参数 ， 为 了 可 以 将 浮 点 数 作为 输入 参 
数 ， 我 们 继续 执行 CREATE AGGREGATE FUNCTION 语句 : 
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通常 情况 下 ， 我 们 会 将 UDAF 与 GROUP BY 一 起 使 用 ， 用 于 对 分 组 后 的 每 一 个 结果 集 进 行 
运算 。 如 下 示例 中 ， 我 们 使 用 0 标识 偶数 行 ， 使 用 1 标识 奇数 行 。 使 用 GROUP BY 对 数据 按照 
奇偶 数 进行 分 组 ， 并 对 每 组 数据 分 别 求 平方 和 。 
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4.9.8 ”UDF 安全 


当 Impala 开启 授权 机 制 特性 后 : 


@ 为 了 在 查询 中 使 用 UDF， 我 们 必须 对 查询 中 的 所 有 的 数据 库 及 相关 的 表 有 读 取 权限 。 

® 为 了 尽 可 能 地 避免 UDF 由 于 编码 错误 导致 的 无 限 循 环 或 者 内 存 消耗 过 大 等 问题 ， 只 有 管 
理 员 才 可 以 创建 UDF。 也 就 是 说 ， 只 有 拥有 服务 器 的 ALL 权限 才 可 以 执行 CREATE 
FUNCTION 语句。 


4.9.9 Impala UDF 的 限制 


在 当前 版 本 ，Impala 对 UDF 有 以 下 限制 : 


。 Impala 不 支持 在 Hive UDF 中 可 以 使 用 的 内 识 类 型 、 复 合 类 型 以 及 其 他 Impala 表 不 支持 的 
类 型 。 

@ 所 有 的 Impala UDF 必须 是 确定 的 ， 也 就 是 说 每 次 我 对 UDF 输入 相同 的 输入 参数 ， 返 回 的 
值 肯定 是 相同 的 。 例 如 ，Impala 不 支持 在 UDF 中 调用 rand0， 因 为 这 样 会 导致 相同 的 输 
入 参数 产生 不 同 的 返回 值 。 另 外 ， 它 也 不 支持 从 磁盘 、 网 络 等 外 部 数据 源 获取 数据 。 

e Impala UDF 不 能 产生 其 他 的 线程 或 者 进程 。 

@ 当 catalogd 进程 重启 之 后 ， 所 有 的 UDF 必须 重新 加 载 。 

@ Impala 当前 不 支持 UDTF (用 户 自 定义 的 表 函 数 ) 。 


A4.10 Impala SQL gHive QL 


当前 Impala 版 本 不 支持 但 在 Hive 中 可 以 使 用 的 如 下 功能 : 


@ 像 map，array，struct 等 非 标量 数据 类 型 。 

日 像 TRANSFORM， 自 定义 文件 格式 ， 自 定义 SerDes 等 扩展 特性 。 

。 XML 和 JSON 函数 。 

e@ Hive 中 的 某 些 聚集 函数 : variance、 var pop、 var samp、 stddev_pop、 stddev_samp、 
covar pop、 covar samp、 corr、 percentile、 percentile approx、 histogram_numeric、 
collect_set。 

。 采样 。 

。 Hive 中 用 于 行列 转换 的 横向 视图 。 

@ 单个 查询 中 使 用 多 个 DISTINCT-。 


Impala 当前 还 不 支持 如 下 HiveQL 语句: 
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在 一 些 情况 下 HiveQL 与 Impala 的 SQL 语句 非常 相似 ， 却 有 不 同 的 含义 : 


(1) Impala 为 Hint 使 用 不 同 的 语法 和 命名 。 

(2) Impala 在 执行 SORT BY、DISTRIBUTE BY、CLUSTER BY 时 不 使 用 MapReduce。 

(3) Impala 查询 中 可 以 不 需要 FROM 子 句 。 

(4) Impala 支持 有 限 的 几 种 隐 式 转换 。 这 样 做 是 为 了 避免 由 于 隐 式 转换 而 导致 的 不 可 预知 
的 结果 。 


Impala 不 支持 在 字符 串 和 数字 、 布 尔 类 型 之 间 的 隐 式 转换 。 如 果 要 进行 这 些 转换 ， 必 须 使 用 
CASTO 强 制 进行 。 

Impala 只 支持 从 范围 小 精度 低 的 数字 向 范围 大 精度 高 的 数字 进行 隐 式 转换 。 例 如 ，Impala 可 
以 对 SMALLINT 到 BIGINT 进行 隐 式 转换 ， 但 是 不 能 从 BIGINT 到 SMALLINT 进行 隐 式 转换 。 
如 果 要 完成 这 种 转换 ， 必 须 使 用 CASTO。 


(5) Impala 支持 将 字符 串 隐 式 转换 成 TIMESTAMP。 

(6) Impala 对 TIMESTAMP 数据 类 型 和 from_unixtime() 字 符 串 使 用 固定 的 格式 字符 串 抽取 
相应 的 内 容 。 

(7) Impala 不 存储 本 地 时 区 时 间 ， 只 存储 相对 于 GMT 的 时 间 。 

(8) Impala 针对 超出 列 数据 类 型 定义 范围 的 溢出 值 返回 的 是 一 个 该 数据 类 型 允许 的 边界 值 ， 
而 不 是 返回 NULL 值 ， 因 此 我 们 自己 捕获 溢出 值 进行 处 理 。 比 如 ， 对 于 一 个 TINYINT 的 数据 类 
型 ， 它 的 范围 是 -128 到 127。 如 果 我 们 为 数据 类 型 为 TINYINT 的 列 输入 -200， 将 会 返回 -128， 如 
果 我 们 为 其 输入 200， 则 会 返回 127。 

(9) Impala 不 提供 虚拟 列 。 

(10) Impala 不 提供 显示 锁 机 制 。 

(11) Impala 不 提供 对 某 些 属性 显示 配置 。 
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处 .1 1 将 SQL 移植 到 Impala 上 


即使 Inpala 支 持 标准 SQL, 但 是 基于 数据 类 型 , 内 棋 函 数 ,各 厂商 对 SQL 的 不 同 扩展 和 Hadoop 
特定 的 语法 差异 ， 我 们 在 将 其 他 应 用 移植 到 Impala 上 时 ， 仍 然 需 要 修改 SQL 源 代 码 。 即 使 SQL 
可 以 正常 工作 ， 基 于 性 能 的 考虑 ， 我 们 仍然 需要 对 SQL 进行 进一步 的 修改 。 


1. 移植 DDL 和 DML 语句 


当 我 们 将 SQL 代码 从 传统 数据 库 移植 到 Impala 上 时 ， 在 创建 schema 的 过 程 中 ， 我 们 会 发 现 
DDL 有 很 多 不 同 之 处 。 比 如 ， 原 有 的 DDL 中 涉及 的 物理 文件 ， 表 空间 ， 索 引 等 在 Impala 中 都 无 
法 对 应 。 我 们 必须 依据 现 有 的 分 区 规则 ，Hadoop 的 文件 格式 等 来 重 构 DDL 语句 。 

- 般 情 况 下 ，SQL 会 与 原 有 的 系统 保持 较 好 的 兼容 性 。 但 是 ， 如 果 在 原 有 系统 中 使 用 了 厂商 
特有 的 语法 或 者 特性 ， 我 们 需要 将 其 改写 成 标准 SQL。 

因此 ， 我 们 建议 将 原 有 系统 中 的 DDL 语句 单独 分 离 出 来 作为 一 个 独立 的 安装 脚本 。 这 样 ， 
对 于 那些 查询 语句 ， 我 们 可 以 放 更 多 的 精力 来 进行 重用 或 者 优化 。 


2. 数据 类 型 迁移 


(1) 将 VARCHAR、VARCHAR2、CHAR 列 修改 为 STRING， 并 删除 列 声明 中 的 长 度 限制 。 
比如 ,我 们 需要 将 VARCHAR(32) 或 者 CHAR(2) 修改 为 STRING 类 型 。Impala 对 字符 串 值 的 长 度 
处 理 非常 灵活 ， 它 可 以 将 字符 串 限 制 为 任何 长 度 ， 但 是 并 不 会 对 字符 数据 本 身 进 行 额 外 的 处 理 。 

(2) 对 于 像 NCHAR、NVARCHAR、NCLOB 等 国际 语言 字符 集 类 型 的 数据 ， 虽 然 Impala 
支持 作为 UTF8 字符 集 进 行 存储 和 查询 ， 但 是 目前 仍然 有 一 些 操 作 只 有 将 其 存储 为 ASCI 字符 集 
才能 正常 工作 。 

(3) 将 DATE、DATETIME、TIME 等 类 型 修改 为 TIMESTAMP。 对 于 时 间 的 处 理 ， 我 们 不 
需要 考虑 时 间 精 度 问 题 ， 因 为 TIMESTAMP 类 型 的 精度 都 比 其 他 的 精度 要 高 。 确 保 应 用 程序 逻辑 
和 ETL 过 程 处 理 的 TIMESTAMP 值 是 UTC 时 间 ， 不 能 使 用 本 地 时 区 的 时 间 。 


在 转换 的 过 程 中 , 我们 可 能 会 遇 到 要 将 日 期 或 者 时 间 的 常量 值 或 者 字符 串 转 换 成 Impala 支持 

的 类 型 。 我 们 可 以 考虑 使 用 regexp_repalce() 来 对 转换 格式 中 的 YY，MM 或 者 Impala 需要 的 前 导 
符 进行 处 理 ， 将 其 转换 成 Impala 兼容 的 格式 。 

(4) 将 SYSDATE 替换 为 NOWO。 将 原 有 日 期 值 直 接 加 减 一 个 整数 N 来 表示 过 去 或 者 未 来 
N 天 得 某 个 时 间 点 的 情况 ， 可 以 使 用 INTERVAL 表达 式 ， 比 如 NOWO + INTERVAL 30 DAYS。 

(5) 虽然 Impala 支持 INTERVAL 表达 式 ， 但 是 我 们 无 法 将 其 定义 为 表 列 的 数据 类 型 。 对 于 
任何 的 INTERVAL 值 , 我 们 只 能 将 其 存 为 数字 类 型 ,再 使 用 日 期 函数 对 其 进行 运算 。 比 如 , 我们 
有 一 个 表 名 称 为 DEADLINE， 其 中 有 一 个 整形 列 TIME_PERIOD， 我 们 可 以 通过 以 下 方式 构建 一 
个 日 期 : 


SELECT NOW() + INTERVAL time period DAYS from deadlines; 
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(6) 对 于 YEAR 类 型 的 列 ， 我 们 可 以 使 用 Impala 中 的 SMALLINT 来 代替 。 

(7) 对 于 DECIMAL 和 NUMBER 数据 类 型 ， 如 果 没 有 精度 要 求 ， 我 们 可 以 使 用 FLOAT 或 
者 DOUBLE 代替 。 如 果 有 精度 要 求 ， 比 如 像 金融 数据 ， 我 们 需要 对 表 结 构 和 应 用 逻辑 做 额外 的 
处 理 。 比 如 ， 对 元 的 存储 ， 我 们 可 以 将 元 和 分 分 离开 ， 分 别 使 用 整 型 数据 存储 ， 或 者 将 数字 类 型 
以 字符 串 方式 存储 ， 也 可 以 使 用 UDF 对 数据 进行 处 理 。 

(8) 对 于 FLOAD、DOUBLE、REAL 类 型 ， 在 Impala 中 可 以 直接 使 用 。 使 用 时 要 删除 原 有 
的 数据 定义 上 的 精度 说 明 。 事 实 上 ， 在 Impala 内 部 ，REAL 类 型 是 DOUBLE 的 别名 。 将 列 声明 
为 REAL 类 型 和 声明 为 DOUBLE 类 型 是 等 效 的 。 

(9) 大 多 数 其 他 系统 的 整 型 类 型 与 Impala 的 是 一 致 的 ， 但 是 也 可 能 存在 定义 相同 名 称 不 同 
的 情况 ， 比 如 BIGINT 和 INT8。 对 于 其 他 无 法 准确 匹配 数据 表示 范围 的 情况 ， 我 们 需要 将 其 转换 
为 Impala 中 能 够 表示 其 范围 的 最 小 的 整数 类 型 。 

(10) 去 掉 其 他 系统 的 SQL 中 的 UNSIGNED 关键 字 ， 因 为 Imapla 中 的 所 有 的 数字 类 型 都 是 
无 符号 的 。 

(11) 对 于 任何 位 运算 的 值 ， 使 用 Impala 中 能 够 涵盖 其 范围 的 最 小 整 型 数据 表示 。 


比如 ， 对 于 TINYINT 值 ， 最 大 的 正 数 为 127， 而 8 位 的 二 进 制 数 的 最 大 值 为 255， 所 以 用 
TINYINT 无 法 表示 ， 只 能 用 SMALLINT 来 表示 。 


Impala 不 支持 使 用 形 如 b*0101’ 来 表示 位 元 值 。 
(12) 使 用 STRING 类 替代 CLOB 或 者 TEXT 类 型 。 而 对 于 BLOB ，RAW 
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BINARY,VARBINARY 类 型 ， 目 前 Impala 中 并 不 支持 。 

(13) 对 于 布尔 类 型 可 以 使 用 Impala 中 的 BOOLEAN 代 蔡 。 

(14) 目前 Impala 不 支持 其 他 数据 库 支 持 的 组 合 类 型 ， 嵌 套 类 型 及 空间 数据 类 型 。 我 们 可 以 
将 空间 类 型 存 成 字符 串 ， 然 后 使 用 UDF 来 处 理 它 。 实 践 中 ， 我 们 一 般 将 不 同 的 空间 类 型 分 别 存 
放 在 不 同 的 表 中 ， 以 使 这 些 数据 可 以 很 好 地 与 非 空间 类 型 数据 一 起 运算 处 理 。 

(15) 去 掉 SQL 中 的 DEFAULT 子 句 。Impala 可 以 使 用 Pig，Hive，MapReduce 作业 等 不 同 
方式 产生 的 数据 文件 。LOAD DATA 和 外 部 表 的 快速 导入 机 制 意味 着 Impala 灵活 的 支持 不 同 格式 
的 数据 文件 ,而且 Impala 在 进行 查询 之 前 不 会 对 其 中 的 数据 进行 检验 和 清洗 。 当 我 们 通过 INSERT 
语句 将 数据 拷贝 到 Impala 中 时 ,我 们 可 以 使 用 像 CASE 或 者 NVL 等 条 件 函 数 来 预 处 理 NULL 值 。 

(16) 去 掉 CREATE TABLE 或 者 ALTER TABLE 等 SQL 中 形 如 PRIMARY KEY、 FOREIGN 
KEY、UNIQUE、NOT NULL、UNSIGNED， 或 CHECK 的 约束 。Impala 认为 数据 对 以 上 约束 的 
处 理应 该 在 ETL 或 者 ELT 过 程 中 完成 。 当 我 们 通过 INSERT 语句 将 数据 拷贝 到 Impala 中 时 ,我 
们 可 以 使 用 像 CASE 或 者 NVL 等 条 件 函 数 来 预 处 理 NULL 值 。 


实践 中 ， 数 据 的 校 验 和 预 处 理应 该 在 数据 被 加 载 进 Impala 之 前 完成 。 当 然 ， 如 果 数 据 已 经 被 
加 载 到 了 Impala 中 ， 我 们 可 以 通过 SQL 语句 进一步 校 验 列 值 是 否 在 业务 允许 的 范围 内 ， 是 否 为 
NULL 等 。 但 是 这 样 做 就 相当 于 在 Impala 内 部 执行 了 一 个 类 似 于 ETL 的 过 程 ， 而 且 处 理 过 的 数 
据 要 通过 INSERT...SELECT 将 处 理 后 的 数据 复制 到 一 张 新 的 表 中 。 


(17) 去 掉 形 如 CREATE INDEX、DROP INDEX、ALTER INDEX 或 者 通过 ALTER TABLE 
完成 对 索引 操作 的 等 效 语句 。 去 掉 CREATE TABLE、ALTER TABLE 中 的 INDEX、KEY、PRIMARY 
KEY 等 子 句 。 因 为 Impala 不 支持 索引 ， 只 是 对 数据 仓库 风格 的 批量 读 取 进 行 了 优化 。 

(18) 对 于 传 入 的 超出 范围 或 者 不 正确 的 输入 参数 的 内 嵌 函 数 ，Impala 会 返回 NULL 值 ， 而 
不 是 抛 出 异常 。 当 然 ， 这 是 在 查询 选项 ABORT_ON_ERROR=true 时 的 效果 。 我 们 可 以 使 用 小 批 
量 的 具有 代表 性 的 样本 数据 作为 内 嵌 函 数 的 输入 来 检查 它 是 否 可 以 返回 预期 的 值 。 比 如 ， 对 于 不 
支持 的 CAST 操作 ， 将 不 会 跑 出 异常 : 


(19) 对 于 其 他 Impala 不 支持 的 数据 类 型 ， 我 们 可 以 将 其 存储 为 字符 串 ， 并 通过 UDF 来 进 
行 处 理 。 

(20) 我 们 可 以 通过 在 查询 选项 ABORT_ON_ERROR=true 时 ， 对 数据 进行 初始 化 测试 来 确 
认 数 据 文件 中 的 数据 类 型 Impala 是 否 支 持 ， 或 者 是 否 可 以 转换 为 Impala 支持 的 类 型 。 如 果 在 查 
询 中 使 用 了 不 允许 的 类 型 转换 ， 这 个 查询 选项 ABORT_ON_ERROR=ture 将 会 引起 查询 失败 。 
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如 果 数 据 文件 中 包含 了 不 支持 的 转换 格式 ， 上 述 语句 将 会 报错 。 


3. SQL 语句 迁移 
对 于 某 些 我 们 很 熟悉 的 SQL 语句 ，Impala 并 不 支持 。 


(1) Impala 中 没有 DELETE 语句。Impala 使 用 在 数据 仓库 的 场景 中 ， 对 数据 的 处 理 仅 包括 
海量 数据 的 转换 或 者 移动 。 虽 然 不 能 使 用 DELETE， 但 是 我 们 可 以 使 用 INSERT OVERWRITE 来 
替换 整个 表 或 者 整个 分 区 的 数据 ， 或 者 使 用 INSERT...SELECT 来 将 数据 拷贝 到 另 一 个 表 中 。 

(2) Impala 中 没有 UPDATE 语句 。 与 DELETE 语句 类 似 ，Impala 适用 的 数据 仓库 场景 也 不 
会 涉及 到 对 数据 的 更 新 操作 。 为 了 保证 数据 不 会 进行 更 新 操作 ， 我 们 需要 在 数据 进入 Impala 之 前 
的 ETL 中 进行 处 理 ， 或 者 使 用 INSERT...SELECT 来 将 数据 从 一 个 表 拷贝 到 另 一 个 指定 文件 格式 
或 者 分 区 类 型 的 表 中 。 

(3) Impala 中 没有 事务 的 概念 ， 不 支持 COMMIT、ROLLBACK 等 。Impala 使 用 的 类 似 于 
传统 数据 库 中 的 AUTOCOMMIT 的 方式 ， 对 Impala 中 数据 的 改变 会 立即 生效 。 

(4) Impala 中 的 数据 库 名 称 ， 表 名 ， 列 名 及 其 他 命名 不 能 与 Impala 保留 的 关键 字 冲 突 。 相 
反 , 如 果 我 们 使 用 一 个 Impala 不 认识 的 关键 字 , 那么 这 个 关键 字 会 被 解释 为 表 或 者 列 别名 。 例如 : 
SQL 语句 SELECT* FROM tl NATURAL JOIN t2, Impala 不 认识 NATURAL 关键 字 , 根据 语法 分 
析 ，Impala 会 将 NATURAL 解释 为 表 tl 的 别名 。 如 果 我 们 遇 到 了 不 能 返回 预期 结果 的 查询 , 我们 
需要 检查 在 JOIN 和 WHERE 中 的 名 称 是 否 在 预 留 关 键 字 列表 中 。 

(5) Impala 支持 FROM 子 句 的 子 查询 ， 但 是 不 支持 带 WHERE 子 句 的 子 查询 。 因 此 ， 我 们 
不 能 使 用 像 WHERE column IN (subquery) 这 样 的 查询 语句 。 另 外 ， 虽 然 EXISTS 是 Impala 的 预 留 
关键 字 ， 但 是 Impala 仍然 不 允许 使 用 EXISTS 或 NOT EXISTS 子 句 。 

(6) Impala 支持 UNION 和 UNION ALL， 但 是 不 支持 INTERSECT。 如 果 从 业务 上 我 们 可 
以 确认 两 个 结果 集 根 本 不 相交 ， 或 者 合并 后 的 结果 集中 出 现 重复 值 对 业务 和 查询 没有 任何 影响 ， 
那么 UNION ALL 比 UNION 更 优越 。 因 为 UNION ALL 避免 了 为 了 消除 重复 值 而 对 整个 结果 集 
进行 物化 和 排序 。 

(7) 对 于 任何 子 查询 ， 必 须 使 用 别名 。 

比如 : 


如 果子 查询 select* from tl 没有 contents_of tl 的 别名 ， 将 会 报错 。 
(8) 如 果 我 们 对 查询 中 的 一 个 表达 式 使 用 了 别名 ， 那 么 这 个 别名 在 同一 个 查询 列表 中 不 能 重 


复出 现 。 
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在 Impala 中 解决 这 个 问题 有 两 个 方法 ， 一 个 是 将 表达 式 重 复 编码 ， 一 个 是 使 用 WITH 子 句 ， 
在 WITH 子 名 中 创建 基于 原始 表 查 询 的 包含 表达 式 别名 的 列 。 


解决 方案 1: 


解决 方案 2: 


(9) Impala 不 支持 数据 仓库 场景 中 针对 海量 数据 进行 关联 不 太 合适 的 连接 类 型 。 在 某 些 情 
况 下 ，Impala 支持 某 些 连接 类 型 ， 但 是 为 了 避免 连接 效率 低下 的 问题 需要 明确 的 语法 来 指定 。 
Impala 不 支持 自然 连接 或 者 反 连 接 ， 但 是 可 以 通过 CROSS JOIN 操作 符 来 进行 笛 卡 尔 乘积 。 

(10) Impala 不 支持 全 部 的 分 区 类 型 。 分 区 定义 基于 一 个 或 者 多 个 分 区 键 的 不 重复 的 值 的 组 
合 。 即 使 创建 分 布 式 分 区 ，Impala 也 不 会 重新 分 布 和 校 验 数 据 。 我 们 必须 根据 数据 量 和 数据 分 布 
情况 选择 合适 的 分 区 键 ,对 于 使 用 了 范围 分 区 , 列表 分 区 , 哈 希 分 区 或 者 按键 值 分 区 的 表 , 在 Impala 
中 ， 我 们 使 用 CREATE TABLE 和 ALTER TABLE 语句 的 分 区 语法 。Impala 分 区 类 似 于 每 个 范围 
都 有 确定 值 界 定 的 范围 分 区 ， 或 者 使 用 哈 希 函数 为 每 一 组 键 值 生成 一 个 总 的 键 值 分 区 。 

(11) 对 于 TOP-N 查询 ，Impala 不 是 使 用 ROWNUM 或 者 ROW_NUM 的 伪 列 ， 而 是 使 用 
LIMIT 子 句 。 


4. 仔细 检查 SQL 结构 


应 用 中 某 些 SQL 在 编码 时 考虑 的 是 书写 方便 ， 而 不 是 性 能 。 有 时 候 ， 自 动 生成 的 SQL 语句 
通过 JDBC 或 者 ODBC 直接 执行 可 能 效率 极其 低下 ， 也 可 能 执行 时 会 超出 Impala 的 执行 限制 。 
在 我 们 迁移 SQL 代码 时 ， 要 时 刻 保持 警惕 : 


(1) 不 使 用 STORED AS 子 句 的 CREATE TABLE 语句 默认 会 创建 纯 文本 文件 格式 ， 这 种 明 
文 的 文件 格式 对 于 异 构 系统 的 数据 交换 非常 方便 ， 但 是 对 于 海量 数据 的 高 性 能 查询 却 不 是 一 个 好 
的 选择 。 

(2) 不 使 用 PARTITION BY 子 句 的 CREATE TABLE 语句 会 在 同一 个 位 置 存储 所 有 的 数据 文 
件 ， 这 可 能 会 带 来 由 于 数据 量 的 不 断 又 增 带 来 的 扩展 性 问题 。 

另 一 方面 ， 如 果 传统 的 数据 库 分 区 表 在 Impala 中 产生 了 大 量 的 分 区 ， 而 且 每 个 分 区 数据 量 很 

小 ， 将 可 能 导致 Impala 无 法 充分 利用 并 行 查询 的 特性 ， 从 而 使 查询 性 能 低下 。 

(3) INSERT...VALUES 语法 可 以 对 数据 量 非 常 小 的 表 进 行 功 能 测试 使 用 ， 通 过 这 种 方式 每 
插入 一 行 数据 就 会 在 HDFS 上 产生 一 个 单独 的 小 数据 文件 ， 非 常 不 利于 数据 的 海量 扩展 。 如 果 一 
定 要 对 数据 进行 变更 , 我 们 需要 在 数据 进入 Impala 之 前 的 过 程 进行 处 理 , 然后 将 LOAD DATA 进 
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Impala 或 者 直接 产生 裸 数 据 文件 。 这 样 数据 无 须 转换 处 理 就 可 以 通过 Impala 直接 访问 , 或 者 通过 
外 部 表 的 方式 进行 访问 。 

(4) 如 果 我 们 的 ETL 过 程 没 有 针对 Hadoop 进行 优化 ， 那 么 我 们 可 能 最 终 产 生 很 多 碎片 化 
的 小 数据 文件 ， 或 者 一 个 单个 的 大 数据 文件 。 无 论 哪 种 情况 ， 都 会 导致 Impala 无 法 很 好 的 利用 并 
行 查询 和 分 区 功能 。 在 这 种 情况 下 ， 我 们 需要 使 用 INSERT...SELECT 语句 将 数据 拷贝 到 一 个 新 
表 ， 重 新 以 更 有 效 的 方式 组 织 数据 。 我 们 还 可 以 使 用 INSERT...SELECT 将 数据 写 入 效率 更 高 的 
格式 的 文件 中 ， 或 者 将 数据 从 非 分 区 表 写 入 分 区 表 。 

(5) Impala 中 允许 的 表达 式 的 数目 比 其 他 的 数据 库 要 少 , 这 很 可 能 导致 非常 复杂 的 查询 (万 
其 是 自动 生成 的 SQL 语句 ) 执行 失败 。 实 践 中 ， 我 们 在 WHER 子 句 中 使 用 的 表达 式 的 数目 应 该 
小 于 2000 左右 。 

(6) 业务 允许 的 情况 下 ， 将 UNION 改写 为 UNION ALL。 


5. 校 验 语法 语义 ， 执 行 迁移 
本 节 中 ， 我 们 对 迁移 过 程 进行 的 操作 将 可 能 对 语句 的 性 能 带 来 重大 的 影响 ,在 确认 了 SQL 语 


句 迁 移 功 能 正确 的 前 提 下 ,我们 要 仔细 检查 Schema 设计 、 物 理 文件 分 布 等 性 能 相关 的 方方面面 ， 
确保 能 够 正确 使 用 Impala 并 行 机 制 , 性 能 相关 的 SQL 特性 , 以 及 与 Hadoop 其 他 组 件 很 好 的 集成 


@ 是 否 已 对 参与 关联 的 表 执行 了 COMPUTE STATS 搜集 统计 信息 ? 是 否 已 对 INSERT .… 
SELECT 或 者 CREATE TABLE AS SELECT 的 源 表 执行 了 COMPUTE STATS 搜集 统计 信 
息 ? 

e@ 是 否 使 用 了 符合 数据 规模 ， 表 结构 和 查询 特点 的 文件 格式 ? 

@ 是 否 有 效 的 使 用 了 分 区 ? 换 名 话说， 是 否 能 够 通过 分 区 列 对 WHERE 条 件 进行 很 好 的 过 
滤 ? 每 个 分 区 是 否 有 足够 的 数据 量 以 保证 Impala 的 并 行 机 制 可 以 更 好 的 发 挥 作用 。 

® ”ETL 过 程 是 否 产生 了 一 定数 量 的 有 一 定 大 小 的 文件 ， 还 是 海量 的 小 文件 ? 
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我 们 可 以 使 用 Impala shell 工具 (impala-shell) 来 创建 数据 库 、 表 , 插入 数据 ,执行 查询 等 。 我 
们 也 可 以 通过 在 一 个 交互 式 会 话 中 提交 SQL 语句 来 完成 即席 查询 和 钻 取 操作 。 为 了 使 执行 操作 自 
动 化 , 我 们 可 以 指定 相应 的 命令 行 选项 来 处 理 单个 的 SQL 语句 或 者 脚本 文件 。imapla-shell 解释 器 
支持 所 有 在 上 一 章 中 介绍 的 SQL 语句 ,另外 通过 shell 特有 的 命令 行 选项 , 我 们 也 可 以 完成 问题 诊 
断 和 语句 的 优化 。 

在 非 交 互 模式 中 ， 查 询 会 输出 到 标准 输出 stdout 或 者 -o 选项 指定 的 文件 。 如 果 查 询 错误 ， 将 会 
输出 到 标准 错误 stderr。 

在 交互 模式 中 ，impala-shell 使 用 readline 来 编辑 或 重新 调用 之 前 的 命令 。 

在 Cloudera Manager 4.1 或 者 更 高 版 本 中 ，impala-shell 将 自动 被 安装 到 系统 中 。 如 果 是 在 没有 
被 Cloudera Manager 管理 的 系统 中 ,为 了 更 好 的 和 Impala 进 行 交互 ,我们 需要 手动 安装 impala-shell。 


.1 命令 行 选项 


我 们 可 以 通过 制定 以 下 命令 行 选项 来 启动 impala-shell 来 改变 shell 命令 的 执行 方式 。 
(1) -B 或 者 -delimited: 对 查询 结果 去 格式 化 ， 并 将 其 按照 指定 的 分 隔 方式 进行 分 隔 。 在 其 
他 的 Hadoop 组 件 需要 使 用 Impala 产生 的 查询 结果 时 , 这 个 选项 非常 有 用 。 这 个 选项 避免 了 Impala 
对 查询 结果 进行 格式 化 的 性 能 负载 ， 尤 其 是 在 对 海量 数据 进行 压力 测试 时 对 性 能 提升 效果 更 为 明 
显 。 分 隔 符 使 用 --output_delimiter 选项 指定 。-B 可 以 将 查询 结果 输出 到 一 个 文件 中 。 


示例 : 
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(2) -o 或 者 --output_file: 该 选项 后 面 跟 文件 名 称 ， 可 以 将 输出 结果 存储 为 指定 的 文件 。 该 
选项 经 常 与 -q 选项 一 起 使 用 ，-q 指定 查询 的 SQL 语句 ， 而 本 选项 指定 输出 结果 。 在 交互 式 查询 
中 ， 我 们 可 以 看 到 在 输出 结果 中 会 自动 为 每 行 添加 一 个 行 号 ， 而 事实 上 这 个 行 号 并 不 属于 结果 集 
本 身 。 为 了 防止 在 使 用 -q -o 选项 时 这 些 额 外 信息 输出 ， 需 要 将 标准 错误 stderr 重 定向 到 /dev/null。 


示例 : 
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(3) 一 output_delimiter=: 该 选项 对 使 用 -B 选项 去 格式 化 输出 的 查询 结果 指定 各 字段 间 的 分 
隔 符 。 默 认 的 分 隔 符 为 制 表 键 〈"t )。 如 果 输 出 字段 中 包含 了 分 隔 符 字符 ， 这 个 字段 将 使 用 /进行 


旭 
* 


示例 : 


(4) -p 或 者 --show_profiles: 显示 查询 的 执行 计划 与 EXPLAIN 语句 输出 相同 ) 和 每 个 查询 
语句 底层 的 执行 步骤 的 详细 信息 。 
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(5) -h 或 者 --help: 显示 帮助 信息 。 

(6) -i 或 者 --imapad=: 后 面 接 主 机 名 用 来 指定 连接 到 指定 的 impalad 节点 。 默认 的 连接 端口 
为 21000。 我 们 可 以 使 用 该 命令 连接 到 集群 中 任何 一 台 impalad 节点 上 。 如 果 Impala 启动 时 使 用 
了 备用 端口 ， 则 需要 使 用 --fe_port 选项 标识 。 


示例 : 


(7) -q 或 者 --query=: 该 选项 用 于 执行 一 个 查询 语句 或 者 shell 命令 。Impala 不 必 等 待 查询 或 
者 shell 执行 结束 即 可 返回 。 这 里 的 查询 仅 限 于 像 SELECT、CREATE TABLE、SHOW TABLES 
等 单条 的 语句 。 因 为 USE 语句 是 一 条 单独 的 SQL 语句 ， 而 这 个 选项 只 能 指定 单条 语句 ， 所 以 如 
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果 对 象 没有 前 绥 只 能 访问 default 数据 库 如 果 要 访问 其 他 数据 库 就 必须 指定 数据 库 名 称 作为 前 级 


(8) 二 或 者 --query_file=: 这 个 选项 后 面 可 以 跟 一 个 SQL 查询 脚本 文件 ， 脚 本 文件 中 的 SQL 
必须 使 用 “; ”来 分 隔 。 


示例 : 
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(9) -k 或 者 --kerberos: 该 选项 用 来 指定 当 shell 连接 到 impalad 节点 时 使 用 kerberos 身份 验 
证 。 但 是 如 果 impalad 节点 本 身 没有 启用 kerberos， 连 接 将 会 报错 。 

(10) -s 或 者 --kerberos_service_name: 该 选项 后 面 跟 kerberos 服务 名 称 让 impala-shell 验证 一 
个 特定 的 impalad 服务 。 如 果 没 有 指定 kerberos 服务 名 称 ， 将 使 用 impala 作为 默认 的 名 称 。 如 果 
该 选项 用 于 一 个 不 支持 kerberos 的 连接 ， 将 会 返回 错误 。 

(11) -V 或 者 --verbose: 启用 详细 信息 输出 。 

〈12) --quiet: 禁用 详细 信息 输出 。 
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(13) -v 或 者 --version: 显示 版 本 信息 。 

(14) -c : 如 果 查 询 失败 继续 执行 。 

(15) -r 或 者 --refresh_after_connect: 连接 后 刷新 Impala 元 数据 信息 。 效 果 和 连接 之 后 执行 
REFRESH 语句 相同 。 

(16) -d 或 者 --database=: 该 选项 后 面 跟 上 数据 库 的 名 称 用 于 连接 到 指定 的 数据 库 。 该 选项 
的 效果 和 连接 上 之 后 执行 USE 的 效果 相同 。 如 果 不 指 定 该 选项 ， 将 连接 到 系统 默认 的 default 数 
据 库 。 


(17) J1: 该 选项 用 于 启用 LDAP 身份 验证 。 
(18) -u: 如 果 启 用 了 -1 选项 ， 则 用 -u 来 指定 身份 验证 的 用 户 名 称 。 连 接 时 shell 将 会 提示 输 
入 密码 。 


本 节 中 的 大 部 分 命令 行 选项 可 以 用 于 将 Impala 的 查询 写 入 shell 脚本 中 。 比 如 ， 通 过 -f 选项 
我 们 可 以 将 要 执行 的 语句 写 入 文件 ， 通 过 该 选项 调用 要 查询 的 文件 ， 通 过 -B -o --output_delimiter 
可 以 将 查询 结果 以 特定 的 分 隔 符 写 入 文件 供 其 他 Hadoop 组 件 调 用 。 
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5.2 连接 到 Impalad 


在 Impala 中 ,我 们 只 有 连接 到 impalad 进程 节点 后 才能 执行 查询 操作 。 当 我 们 使 用 impala-shell 
连接 到 impalad 进程 节点 时 可 以 配置 相关 的 命令 行 选项 指定 连接 信息 。 我 们 可 以 连接 到 任何 一 个 
运行 了 impalad 进程 的 DataNode， 接 受 了 连接 的 节点 将 作为 协调 者 节点 运行 查询 任务 。 

简单 起 见 ， 我 们 可 以 总 是 连接 到 同一 个 impalad 节点 。 如 果 在 本 地 节点 执行 impala-shell 进行 
连接 ， 我 们 可 以 把 主机 名 指定 为 localhost。 当 我 们 通过 一 个 节点 执行 操作 导致 表 数 据 或 者 元 数据 
更 新 时 ， 通 过 另 一 个 节点 连接 后 必须 执行 REFRESH 操作 刷新 元 数据 信息 。 如 果 我 们 始终 连接 到 
同一 个 节点 ， 在 这 个 节点 上 进行 操作 将 能 有 效 地 避免 频繁 的 执行 REFRESH 操作 。 

从 负载 均衡 和 灵活 性 的 角度 考虑 ， 我 们 可 以 连接 到 任何 一 个 impalad 节点 上 执行 查询 。 在 这 
种 情况 下 ， 如 果 表 数据 或 者 元 数据 信息 被 其 他 节点 更 新 ， 该 连接 将 会 根据 情况 对 我 们 查询 的 表 执 
行 REFRESH table name 或 者 执行 REFRESH 刷新 全 部 表 的 元 数据 信息 。 

为 了 让 imapla-shell 连接 到 任何 impalad 节点 : 


1. 启动 impala-shell 


执行 该 命令 后 ， 将 会 看 到 如 下 提示 信息 : 


2. 使 用 connect 连接 到 Impala 实例 
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与 .运行 命令 


我 们 可 以 通过 按 两 次 TAB 键 获得 所 有 命令 的 列表 : 


可 以 在 这 个 shell 中 直接 执行 SQL 语句 ， 演 示 如 下 : 


5.4 命令 参考 


当 shell 连接 到 Impalad 节点 之 后 ， 我 们 可 以 使 用 下 述 命令 向 Impala 发 送 请 求 。 有 两 种 发 送 请 
求 的 方式 ， 一 种 是 直接 在 shell 命令 提示 符 中 交互 式 执行 ， 一 种 是 通过 启动 shell 时 指定 -q 选项 。 
这 些 命令 中 大 多 数 都 是 SQL 语句 ， 具 体 SQL 的 语法 请 参考 上 一 章 。 


e@ alter 改变 一 个 Impala 表 ，Hive 表 的 表 结构 或 者 配置 信息 。 具 体 的 命令 有 ALTER TABLE 
和 ALTER VIEW 语句 。 

@ compute stats: 搜集 表 性 能 相关 的 统计 信息 ， 在 优化 Impala 查询 时 使 用 。 

@ ”connect: 连接 到 Impalad 节点 。 连 接 的 默认 端口 号 为 21000， 如 果 要 使 用 备用 端口 ， 则 需 
要 指定 -从 port 标识 。SET 命令 只 有 连接 到 Impalad 节点 之 后 才 会 生效 。 

”describe: 显示 指定 表 的 列 ， 列 数据 类 型 ， 列 注释 信息 等 。DESCRIBE FORMATTED 命令 
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还 会 显示 HDFS 数据 目录 ， 分 区 ， 表 内 部 属性 等 更 详细 的 信息 。 另 外 ， 我 们 也 可 以 把 这 个 

命令 缩写 为 DESC。 

e drop: 删除 一 个 对 象 ， 在 某 些 情况 下 还 会 删除 相关 的 数据 文件 。 相 关 的 命令 有 DROP 
TABLE、DROP VIEW、DROP DATABASE、DROP FUNCTION 等 . 

e@ explain: 显示 一 个 查询 的 执行 计划 及 它 执行 的 各 个 步骤 信息 。 这 个 的 步骤 信息 可 能 是 
MAP/REDUCE 的 各 阶段 ， 元 数据 操作 ， 文 件 系统 操作 等 。 

® help: 显示 所 有 可 用 的 命令 和 选项 的 列表 。 

e@ history: 维护 一 个 会 话 无 关 的 执行 过 的 命令 的 历史 记录 。 这 个 历史 记录 存储 在 
~/impalahistory 文件 中 。 

@ insert: 向 指定 的 表 中 写 入 数据 。 这 里 的 写 入 可 能 是 向 已 存在 数据 的 表 中 插入 数据 ， 也 可 
能 是 覆盖 现 有 表 中 的 数据 。 

e@ invalidate metadata: 更 新 元 数据 信息 。 在 创建 、 删 除 、 修 改 了 数据 库 、 表 、 分 区 后 使 用 本 
命令 。 

eprofile: 显示 最 近 的 查询 到 底层 信息 用 于 问题 诊断 或 者 性 能 优化 。 

@ quit: 退出 shell。quit 命 令 也 需要 以 “; ”结尾 ，shell 才能 识别 。 

e@ refresh : 刷新 HDFS 数据 文件 位 置 相 关 的 元 数据 信息 。 在 向 表 中 加 载 了 新 的 数据 文件 之 
后 ， 需 要 使 用 该 命令 。 

@ select : 查询 满足 特定 条 件 的 数据 集 。select 返回 的 所 有 的 数据 集 既 可 以 在 控制 台 输 出 ， 
也 可 以 输出 到 文件 。 

@ set: 管理 impala-shell 会 话 的 查询 选项 。 这 些 选 项 用 来 做 问题 诊断 或 者 优化 查询 。 执 行 没 

有 任何 参数 的 SET 选项 ， 将 返回 所 有 选项 的 当前 值 。 这 个 当前 值 可 能 是 impalad 进程 的 默 

认 值 ， 也 可 能 是 启动 impalad 时 指定 的 值 ， 或 者 是 在 这 个 会 话 中 刚刚 设置 的 某 个 参数 值 。 

如 果 要 修改 某 个 选项 , 使 用 SET OPTION=VALUE 的 语法 这 里 的 value 可 以 使 用 布尔 值 、 

数字 或 者 字符 串 。 如 果 要 恢复 默认 值 ， 可 以 使 用 unset 命令 。 

shelk 不 退出 impala-shell 执行 操作 系统 的 命令 , 我们 也 可 以 使 用 ! 作为 shell 命令 的 缩写 。 

show: 显示 对 象 的 元 数据 信息 。 该 命令 还 可 以 用 来 搜集 特定 的 数据 库 或 者 表 的 相关 信息 。 

unset: 用 于 删除 我 们 通过 set 命令 设置 的 查询 选项 ， 将 其 修改 为 默认 值 。 

use: 切换 到 指定 的 数据 库 。 切 换 到 指定 的 数据 库 之 后 ， 我 们 在 访问 该 数据 库 中 的 对 象 时 

就 不 必 再 指定 数据 库 名 称 作 为 前 级 。 

@ ”version: 返回 Impala 的 版 本 信息 。 


与 . 5 查询 参数 设置 


我 们 可 以 在 impala-shell 中 指定 如 下 参数 ， 修 改 后 的 参数 将 对 这 个 会 话 中 执行 的 所 有 查询 有 
效 。 某 些 选 项 用 于 在 日 常 操作 中 提高 Impala 的 可 用 性 、 性 能 和 灵活 性 。 另 外 一 些 选 项 用 于 在 故障 
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诊断 或 者 调试 时 对 Impala 进行 特殊 的 控制 。 
(1) ABORT_ON_DEFAULT LIMIT_EXCEEDED 


该 参数 与 DEFAULT_ORDER_BY_LIMIT 结合 使 用 ， 确 保 ORDER BY 查询 的 结果 不 会 被 截 
断 。 如 果 一 个 没有 使 用 LIMIT 的 ORDER BY 语句 结果 集 超过 了 DEFAULT_ ORDER_BY_LIMIT 
的 值 ， 这 个 查询 将 会 被 中 断 ， 而 不 是 返回 一 个 没有 处 理 完 的 不 正确 的 结果 。 

类 型 :布尔 型 。 

默认 值 : FALSE。 

当 指定 了 LIMIT 子 句 时 DEFAULT_ ORDER_BY_LIMIT 和 ABORT_ ON_DEFAULT _LIMIT 
EXCEEDED 参数 不 会 有 任何 影响 : 
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如 果 指 定 了 ABORT_ON_DEFAULT_LIMIT_EXCEEDED 参数 ， 查 询 将 会 被 取消 。 


(2) ABORT_ON_ ERROR 

如 果 未 启用 该 选项 ， 当 某 个 Impalad 进程 节点 故障 时 ， 已 经 发 出 的 查询 会 在 其 他 节点 继续 执 
行 ， 并 返回 一 个 依赖 部 分 Impalad 进程 节点 运算 的 结果 。 这 个 结果 仅 依赖 于 正常 运行 的 Impalad 
进程 节点 上 的 数据 进行 计算 ， 所 以 计算 出 的 结果 可 能 不 完全 正确 ， 至 少 是 不 完整 的 。 当 启用 这 个 
选项 之 后 ， 如 果 任何 节点 发 生 错误 ，Impala 将 立即 中 断 查询 。 这 个 选项 可 以 最 大 限度 的 帮助 我 们 
搜集 错误 发 生 时 的 诊断 信息 。 通 过 诊断 信息 我 们 可 以 确认 是 否 发 生 的 是 之 前 同样 的 问题 ， 是 在 所 
有 节点 还 是 只 在 一 个 节点 上 发 生 的 。 目 前 ，Impala 可 以 忽略 的 错误 包括 像 列 类 型 不 匹配 的 数据 损 
坏 等 。 

当 ABORT_ON_ERROR 为 OFF 时 ,为 了 控制 Impala 产生 的 非 关 键 的 错误 信息 的 多 少 , 需要 
使 用 MAX_ERRORS 选项 。 

类 型 :布尔 。 

默认 值 : FALSE。 


(3) ALLOW_UNSUPPORTED FORMATS 

该 选项 是 一 个 过 时 的 将 要 被 抛弃 的 选项 ， 在 早期 用 于 支持 不 同 的 文件 格式 。 在 新 版 本 中 ， 该 
选项 会 被 彻底 删除 。 

类 型 : 布尔 。 

默认 值 : FALSE。 

(4) BATCH SIZE 

SQL 操作 符 一 次 可 以 计算 的 行 数 。 如 果 未 指定 该 值 或 者 指定 为 0， 将 使 用 默认 值 1024。 

默认 值 : 0 (也 就 是 1024)。 

(5) DEBUG_ACTION 

用 于 Cloudera 内 部 故障 诊断 和 调试 。 

类 型 : STRING。 

默认 值 : 空 字符 串 。 

(6) DEFAULT_ ORDER_BY_LIMIT 

为 了 避免 对 海量 的 结果 集 进行 排序 ，Impala 在 查询 时 如 果 使 用 ORDER BY 则 必须 使 用 
LIMIT 子 句 限定 返回 的 数据 条 数 。 对 一 个 海量 数据 结果 集 进行 排序 是 一 个 特别 消耗 内 存 的 操作 ， 
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只 有 在 对 所 有 的 数据 排序 完成 之 后 ， 才 能 返回 结果 。 

为 了 避免 对 已 有 的 应 用 修改 源 代码 ,对 有 ORDER BY 的 SQL 加 入 LIMIT 子 句 ， 我 们 可 以 通 
过 设置 DEFAULT_ORDER_BY_LIMIT 参数 设 定 允 许 排 序 之 后 返回 的 最 大 记录 行 数 。 比 如 ， 如 果 
设 定 DEFAULT_ORDER_BY_LIMIT=10， 查 询 将 会 返回 TOP-10 结果 。 或 者 我 们 可 以 设置 一 个 很 
大 的 值 ， 比 如 DEFAULT ORDER _BY_LIMIT=1000000， 用 于 对 返回 的 记录 行 数 进行 检查 确认 。 
当然 ， 如 果 返 回 的 行 数 小 于 1000000， 这 个 选项 对 查询 没有 任何 影响 。 

该 参数 默认 值 是 -1， 表 示 不 设 定 返回 结果 的 上 限 值 。 如 果 在 所 有 的 包含 ORDER BY 的 SQL 
中 都 指定 了 LIMIT 子 句 ， 可 以 使 用 该 默认 值 。 


示例 : 
如 果 SQL 指定 了 LIMIT 子 句 ， 则 DEFAULT_ORDER_BY_LIMIT 参数 不 起 作用 |: 


如 果 指 定 了 DEFAULT_ORDER_BY_LIMIT 参数 ， 则 结果 集会 被 截断 : 
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Returned 5 row(s) in 0.30s 


(7) DISABLE CODEGEN 

这 是 一 个 用 于 诊断 系统 崩溃 的 调试 参数 。 如 果 查 询 由 于 “inegal instruction ”或 者 其 他 特定 的 
硬件 错误 导致 查询 失败 ， 我 们 可 以 设置 DISABLE_ CODEGEN=true， 再 次 运行 有 问题 的 查询 。 如 
果 查 询 只 有 在 DISABLE CODEGEN=true 时 才能 运行 成 功 ,我 们 需要 向 厂商 提交 详细 的 问题 报告 。 
在 其 他 任何 情况 下 ， 不 得 将 该 参数 置 为 tue。 因 为 将 其 置 为 tue 后 ， 会 为 每 个 执行 的 查询 增加 一 
定额 外 的 开销 ， 导 致 性 能 问题 。 如 果 对 一 个 有 很 多 对 小 表 访 问 的 短 查询 的 系统 上 将 该 参数 置 为 
true， 将 很 快 达到 系统 的 最 大 吞吐 量 。 


类 型 ， 布 尔 。 
默认 值 : FASLE。 


(8) EXPLAIN LEVEL 
该 参数 控制 EXPLAIN 语句 输出 的 信息 量 。 执 行 计划 的 基本 输出 信息 可 以 帮助 我 们 从 顶层 分 
析 像 数据 量 过 大 或 者 分 区 过 多 等 性 能 问题 。 而 更 详细 的 信息 则 可 以 显示 中 间 结 果 是 如 何在 各 节点 
之 间 交 互 ， 以 及 像 ORDER BY,GROUP BYJOIN,WHERE 等 SQL 如 何在 分 布 式 系统 中 的 实现 等 。 
类 型 STRING 或 INT。 
默认 值 : 1。 
参数 : 参数 值 的 范围 为 数字 0~3。 


e 0: 即 MINIMAL， 是 执行 计划 的 最 小 输出 ， 包 含 执行 计划 最 简要 的 信息 ， 每 个 操作 占用 
一 行 。 使 用 该 参数 主要 是 用 来 检查 一 个 长 SQL 中 连接 的 顺序 是 否 符合 预期 。 

e 1: 即 STANDARD， 是 执行 计划 的 标准 输出 ， 也 是 默认 的 输出 ， 包 含 分 布 式 查询 执行 的 
逻辑 路 径 。 

e 2: 即 EXTENDED， 是 执行 计划 的 扩展 输出 ， 包 括 查询 优化 器 如 何 使 用 统计 信息 。 通 过 
该 信息 我 们 可 以 了 解 一 个 查询 如 何 通过 搜集 统计 信息 , 添加 Hint, 或 者 删除 谓词 进行 优化 。 

e 3: 即 VERBOSE， 是 执行 计划 最 详细 的 输出 ， 包 括 一 个 查询 是 如 何 被 分 配 到 各 节点 上 ， 
并 通过 管道 进行 连接 等 底层 信息 。 查 看 这 个 级 别 的 信息 主要 是 为 了 从 底层 对 Impala 自身 
进行 性 能 优化 ， 而 不 是 从 用 户 级 别 对 SQL 进行 改写 。 


改变 这 个 参数 值 可 以 控制 执行 计划 和 输出 的 信息 量 。 当 我 们 需要 确认 查询 是 否 是 以 我 们 预期 的 
分 布 式 的 方式 执行 ， 或 者 想 了 解 像 大 表 关 联 、 分 区 过 多 、 向 Parquet 表 插 入 数据 等 对 资源 消耗 特 
别 大 的 操作 如 何 执行 时 ， 可 以 选择 使 用 参数 2 或 者 参数 3。 当 我 们 使 用 了 准 入 控制 或 者 资源 管理 
时 ， 使 用 执行 计划 的 扩展 的 信息 可 以 计算 资源 使 用 率 。 

注意 事项 : 我 们 需要 自 底 向 上 阅读 执行 计划 。 执行 计划 最 下 面 的 行 显示 了 查询 的 初始 化 工作 ， 
包括 扫描 了 哪些 数据 文件 等 ;， 中间 的 部 分 展示 了 中 间 结 果 是 如 何 从 一 个 节点 传送 到 另 一 个 节点 ; 
最 上 面 的 部 落 则 展示 了 从 其 他 节点 的 结果 返回 给 协调 者 节点 并 形成 最 终结 果 。 

执行 计划 最 左 侧 一 列 在 执行 计划 生成 时 由 Impala 底层 产生 , 它 的 顺序 并 不 代表 操作 执行 的 顺 
序 。 如 果 这 个 顺序 错乱 ， 对 执行 计划 本 身 并 无 影响 。 
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如 果 统 计 信 息 缺 失 ， 在 任何 级 别 的 执行 计划 里 都 有 一 个 警告 。 此 时 需要 使 用 COMPUTE 
STATS 搜集 统计 信息 ， 消 除 警 告 。 

在 impala-shell 中 使 用 PROFILE 命令 可 以 显示 详细 的 执行 计划 ， 显 示 的 级 别 与 
EXPLAIN_LEVEL=3 相同 。 

示例 : 

本 示例 使 用 一 个 简单 的 空 表 来 演示 执行 计划 的 重要 的 组 成 部 分 : 
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开源 大 数据 分 析 引 擎 Impala 实战 和 到 


Impala shell 


在 警告 信 息 中 显示 了 Impala 为 生成 执行 计划 所 需要 的 信息 。 此 处 ， 我 们 需要 搜集 表 的 统计 信 
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对 于 连接 查询 ， 或 者 其 他 的 复杂 查询 ， 我 们 需要 根据 具体 的 情况 确定 执行 计划 的 输出 级 别 ， 
并 检查 输出 的 执行 计划 信息 。 如 下 示例 显示 了 一 个 三 表 连接 的 SQL 输出 的 执行 计划 ， 然 后 使 用 
[SHUFFLE] 的 Hint 将 前 两 个 表 的 连接 方式 从 BROADCAST 改 为 SHUFFLE。 
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对 于 一 个 涉及 多 个 表 的 连接 查询 ， 默 认输 出 的 执行 计划 可 能 包含 很 多 信息 ， 而 我 们 真正 关注 
的 可 能 是 表 的 连接 顺序 ， 或 者 JOIN 的 方式 (BROADCAST 或 者 SHUFFLE)。 如 果 我 们 只 有 这 个 
需求 ， 可 以 把 执行 计划 的 显示 级 别 修改 为 0。 如 下 示例 显示 了 前 两 个 表 如 何 被 HASH 分 布 到 各 节 
点 上 ， 又 将 第 三 个 表 BROADCAST 到 所 有 节点 上 进行 处 理 的 过 程 。 
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(9) HBASE CACHE BLOCKS 
设置 该 参数 相当 于 在 HBase Java 应 用 程序 中 调用 了 org.apache.hadoop.hbase.client.Scan 的 
setCacheBlocks 方法 ， 可 用 于 控制 HBase region 服务 器 的 内 存 压 力 。 该 参数 经 常 与 
HBASE_CACHING 结合 使 用 。 
类 型 .BOOLEAN。 
默认 值 : FASLE。 


(10) HBASE_ CACHING 
设置 该 参数 相当 于 在 HBase Java 应 用 程序 中 调用 了 org.apache.hadoop.hbase.client.Scan 的 
setCaching 方法 ， 可 用 于 控制 HBase region 服务 器 的 内 存 压 力 。 该 参数 经 常 与 
HBASE CACHE BLOCKS 结合 使 用 。 
类 型 ，BOOLEAN。 
默认 值 : 0。 
(11) MAX_ERRORS 
在 Impala 日 志文 件 中 可 记录 的 某 个 查询 的 非 关键 性 错误 的 最 大 个 数 。 如 果 是 一 个 有 十 亿 行 记 
录 的 表 ， 每 行 产生 一 个 非 关键 性 错误 ， 如 果 不 限制 将 会 产生 十 亿 个 非 关键 性 错误 ， 这 些 信息 都 会 
被 一 一 记录 下 来 。 如 果 指 定 为 0 或 者 不 指定 ， 则 使 用 默认 值 1000。 
这 个 参数 可 以 控制 多 少 个 错误 被 记录 下 来 。 如 果 我 们 想 在 Impala 遇 到 错误 的 时 候 中 断 查询 ， 
可 以 使 用 ABORT_ON_ERROR 参数 。 
默认 值 : 0 (也 就 是 1000)。 
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(12) MAX_IO_BUFFERS 

该 参数 将 被 抛弃 。 当 前 如 何 设置 没有 影响 。 

默认 值 : 0。 

(13) MAX_SCAN RANGE LENGTH 

该 参数 表示 扫描 范围 的 最 大 长 度 。 该 参数 和 表 的 HDFS 块 数 共同 决定 集群 将 使 用 多 少 个 CPU 
核 来 处 理 查 询 请 求 。 

该 参数 越 小 ， 就 越 增加 并 行 度 ， 要 使 用 更 多 的 CPU 核 进行 运算 。 但 是 如 果 过 小 ， 也 可 能 会 带 
来 性 能 问题 ， 因 为 将 任务 拆 分 到 多 颗 CPU 上 本 身 也 需要 负载 。 

该 参数 只 对 HDFS 表 起 作用 ， 对 Parquet 表 无 影响 。 如 果 指 定 为 0 或 者 为 指定 该 参数 ， 其 大 
小 与 每 张 表 的 HDFS 块 大 小 相同 。 通 常情 况 下 ， 对 于 大 多 数 文件 格式 来 说 ， 这 个 值 为 几 MB， 而 
对 于 Parquet 表 ， 这 个 值 为 1GB。 

虽然 这 个 扫描 的 范围 我 们 可 以 任意 定义 ， 但 是 在 底层 Impala 使 用 8MB 的 读 缓冲 区 ， 这 样 可 
以 保证 查询 时 不 必 为 表 分 配 和 表 同 等 大 小 的 内 存 。 

默认 值 : 0。 

(14) MEM_LIMIT 

如 果 没 有 启用 资源 管理 功能 , 该 参数 用 来 定义 每 个 节点 的 最 大 内 存 数 量 。 如 果 在 查询 过 程 中 ， 
任何 一 个 节点 超过 了 这 个 限制 ，Impala 将 会 自动 终止 查询 。 在 查询 执行 的 过 程 中 ，Impala 会 定期 
检查 各 节点 的 内 存 是 否 超出 了 限制 。 即 使 真正 使 用 的 内 存 超出 了 该 参数 的 限制 ， 只 要 在 Impala 检 
查 时 没有 超过 ， 这 个 查询 就 不 会 被 终止 。 

在 CDH5 中 ， 如 果 启 用 了 资源 管理 功能 ， 则 这 个 参数 的 表现 与 上 述 机 制 不 同 。 如 果 设 置 了 该 
参数 ， 它 的 值 将 覆盖 Impala 自动 计算 的 内 存 值 。Impala 为 每 个 节点 从 YARN 请 求 该 参数 指定 的 
内 存 数 ， 只 有 有 足够 的 内 存 可 用 ， 查 询 才 会 继续 进行 ， 虽 然 事 实 上 可 能 使 用 的 内 存 比 请 求 的 少 。 
此 时 ， 这 个 参数 成 为 查询 可 以 正常 执行 的 硬性 限制 。 如 果 启 用 了 资源 管理 功能 ， 但 是 没有 设置 
MEM_LIMIT 参数 ，Impala 将 为 每 一 个 查询 计算 每 个 节点 需要 的 内 存 数 量 ， 然 后 从 YARN 请 求 相 
应 大 小 的 内 存 ， 使 用 相应 的 大 小 初始 化 MEM_LIMIT 参数 。 在 这 种 情况 下 ， 如 果 查 询 实 际 需要 的 
内 存 比 Impala 计算 的 内 存 大 ，Impala 就 认为 内 存 超出 过 MEM_LIMIT 的 限制 ， 终 止 查询 执行 。 

默认 值 : 0。 

(15) NUM_NODES 

仅 在 调试 过 程 中 限制 节点 数 时 使 用 。 该 参数 仅 接受 两 个 参数 ， 一 个 是 0， 表 示 所 有 节点 均 参 
与 运算 ， 一 个 是 1， 表 示 所 有 的 运算 都 在 协调 者 节点 上 进行 。 如 果 我 们 怀疑 一 个 查询 的 多 个 节点 
的 交互 有 问题 ， 可 以 将 参数 设置 为 1， 让 其 在 一 个 节点 上 执行 来 排除 该 问题 。 

默认 值 : 0。 

(16) NUM_SCANNER_THREADS 


一 个 查询 在 每 个 节点 上 扫描 线程 的 最 大 数量 。 默认 情况 下 , 节点 有 多 少 个 CPU 核 就 会 启动 多 
少 个 扫描 线程 。 对 于 一 个 有 一 定 负载 的 集群 ， 我 们 可 以 适当 的 改 下 这 个 参数 。Impala 默认 使 用 的 
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就 是 最 大 值 ， 所 以 将 值 改 大 对 Impala 没有 任何 影响 。 

默认 值 : 0。 

(17) PARQUET COMPRESSION CODEC 

当 Impala 向 Parquet 表 插 入 数据 时 ， 底 层 的 压缩 算法 由 该 参数 控制 。 该 参数 允许 的 值 包 括 : 
snappy，gzip，none。 这 个 参数 是 大 小 写 敏感 的 。 

如 果 该 参数 设置 为 一 个 Impala 无 法 识别 的 值 ， 所 有 的 查询 都 会 报错 。 

默认 值 : SNAPPY。 


(18) PARQUET FILE SIZE 
在 向 Impala 的 Parquet 表 插入 数据 时 ， 该 参数 指定 Parquet 数据 文件 的 最 大 大 小 。 对 于 小 表 或 
者 分 区 表 ， 默 认 的 Parquet 块 大 小 为 1GB。 如 果 我 们 想 增 大 并 行 度 ， 让 数据 尽 可 能 的 分 布 在 多 个 
节点 上 ， 可 以 减少 这 个 参数 的 值 。 减 小 这 个 值 的 大 小 也 可 以 降低 数据 写 入 磁盘 时 的 内 存 压力 。 
默认 值 : 0 (默认 为 1GB)。 


(19) REQUEST_ POOL 

查询 需要 提交 的 池 或 者 队列 的 名 称 。 该 参数 只 有 在 启用 了 Impala 准 入 控制 特性 或 者 基于 
YARN 的 资源 管理 时 有 效 。 

在 CDH5 中 ，Impala 使 用 的 默认 名 称 为 YARN_POOL 。 

默认 值 : 空 。 

(20) RESERVATION REQUEST_TIMEOUT 

Impala 为 一 个 完全 授权 或 者 拒绝 授权 预 留 的 最 大 毫秒 数 。 

默认 值 : 300000 (5 分 钟 )。 


(21) SUPPORT START_ OVER 
保持 该 值 为 FALSE。 
默认 值 : FALSE。 


(22) SYNC DDL 

启用 了 该 参数 将 会 导致 任何 DDL 语句 必须 通过 Catalog 服务 将 更 新 的 元 数据 信息 推送 到 所 有 
节点 上 之 后 ， 才 会 返回 。 所 以 ， 如 果 后 续 我 们 通过 CONNECT 连接 到 某 个 节点 上 时 ， 因 为 它 已 经 
获得 了 最 新 的 元 数据 信息 ， 我 们 就 不 用 担心 识别 不 到 新 创建 的 对 象 的 情况 。 

虽然 INSERT 语句 是 一 个 典型 的 DML 语句 ,但 是 在 Impala 中 ,SYNC_DDL 仍然 能 够 起 作用 。 
如 果 启 用 了 SYNC_DDL 参数 ，INSERT 语句 只 有 在 将 所 有 的 元 数据 变化 推送 到 所 有 Impala 节点 
上 后 才 算 完成 。 在 Impala 底层 ，INSERT 语句 与 传统 的 数据 库 中 的 DDL 语句 类 似 ， 因 为 它 涉及 
到 像 为 新 的 数据 文件 创建 HDFS 块 位 置信 息 ， 或 者 为 分 区 表 增 加 新 的 分 区 等 元 数据 信息 的 变化 。 

默认 值 : FALSE。 
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(23) V_CPU_CORES 
从 YARN 中 请 求 的 每 台 主机 的 虚拟 CPU 核 的 数量 。 如 果 设 置 了 该 参数 ，Impala 将 使 用 该 值 
覆盖 Impala 自动 计算 的 值 。 使 用 该 参数 ， 可 以 将 CDH5 和 Impala 的 资源 管理 特性 连接 在 一 起 。 
默认 值 : 0〈 使 用 自动 计算 的 值 )。 
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作为 一 个 管理 员 ， 我 们 需要 监控 Impala 的 资源 使 用 情况 ， 进 行 必 要 的 维护 操作 以 保持 Impala 
能 够 与 其 他 Hadoop 组 件 协同 工作 。 为 了 解决 已 有 的 问题 或 者 潜在 的 问题 , 我 们 可 能 需要 重新 配置 
Impala 或 者 其 他 Hadoop 组 件 。 

作为 一 个 管理 员 , 我 们 的 任务 包括 安装 ， 升 级 ,配置 Impala 集群 。 如 果 有 安全 方面 的 需求 ,我 
们 还 需要 对 Impala 的 安全 策略 进行 配置 。 另 外 ， 我 们 还 要 协调 Impala 与 其 他 Hadoop 组 件 协同 工 
作 。 


准 入 控制 和 查询 队列 


准 入 控制 是 Impala 的 一 个 功能 ， 为 避免 对 一 个 繁忙 的 CDH 集群 产生 过 多 的 内 存 压力 ， 它 对 
并 发 执行 的 SQL 查询 进行 强制 限制 。 如 果 我 们 的 Impala 集群 有 时 空 载 ， 有 时 负载 过 重 ， 我 们 可 
以 启用 这 个 功能 。 如 果 将 在 一 个 负载 很 轻 的 集群 上 可 以 执行 的 语句 放 到 一 个 负载 很 重 的 集群 上 执 
行 ， 这 个 语句 可 能 因为 内 存 不 足 而 被 终止 执行 。 准 入 控制 功能 为 高 并 发 查询 避免 内 存 不 足 提 供 了 
有 利 的 保障 。 


6.1.1 准 入 控制 概述 


在 一 个 繁忙 的 CDH 集群 上 , 我 们 可 以 通过 不 断 的 实验 找到 一 个 并 发 执行 的 查询 的 最 佳 数 目 。 
因为 Impala 查询 都 是 对 IO 消耗 很 严重 的 , 如果 整个 集群 的 IO 能 力 已 经 达到 极限 , 我 们 再 提交 新 
的 查询 ， 这 时 不 但 新 的 查询 执行 会 产生 瓶颈 ， 由 于 它 对 集群 IO 资源 的 消耗 会 导致 其 他 的 查询 也 
会 受到 影响 。Impala 默认 会 终止 那些 超过 了 指定 内 存 限制 的 查询 任务 ， 所 以 如 果 我 们 一 次 提交 了 
几 个 很 大 的 查询 ， 可 能 我 们 不 得 不 对 由 于 内 存 限制 而 被 Impala 取消 的 查询 重新 执行 。 

准 入 控制 功能 可 以 让 我 们 在 集群 侧 对 并 发 执行 的 查询 的 数目 和 使 用 的 内 存 设置 一 个 上 限 。 那 
些 超过 限制 的 查询 不 会 被 取消 ， 而 是 被 放 在 队列 中 等 待 执行 。 一 旦 其 他 的 查询 执行 结束 释放 了 相 
关 资 源 ， 队 列 中 的 查询 任务 就 可 以 继续 执行 。 
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6.1.2 ” 准 入 控制 和 YARN 


准 入 控制 功能 在 一 定 程度 上 和 YARN 资源 管理 框架 很 类 似 , 他们 可 以 分 别 单独 使 用 ,也 可 以 
一 起 使 用 。 本 部 分 内 容 将 介绍 它们 的 差异 ， 为 我 们 以 何 种 方式 来 管理 资源 提供 帮助 。 

准 入 控制 是 一 个 轻 量 级 的 去 中 心 化 的 系统 , 它 适用 于 系统 的 主要 负载 来 自 于 Impala 查询 的 集 
群 。 它 以 软 限制 的 方式 控制 Impala 的 内 存 被 相对 稳定 的 方式 使 用 ,而 不 是 以 要 么 执行 要 么 取消 的 
方式 限制 资源 的 使 用 。 它 可 以 运行 在 CDH4 或 者 CDH5 上 。 

因为 准 入 控制 不 了 解 像 MapReduce 作业 这 样 的 .Impala 之 外 的 其 他 Hadoop 组 件 的 负载 情况 ， 
我 们 需要 使 用 YARN 静态 服务 池 来 管理 被 Impala 和 其 他 Hadoop 组 件 共享 的 资源 。 我 们 可 以 将 一 
定 百分比 的 资源 分 配给 Impala 使 用 ， 而 将 剩余 的 资源 分 配给 MapReduce 作业 和 其 他 批 处 理 作业 
使 用 。 使 用 准 入 控制 来 控制 集群 中 Impala 作业 对 并 发 和 内 存 的 消耗 , 而 使 用 YARN 来 控制 Hadoop 
其 他 组 件 的 资源 消耗 。 

我 们 可 以 将 YARN、Impala、Llama 一 起 使 用 ， 其 中 YARN 管理 所 有 的 集群 资源 ， 以 Llama 
作为 媒介 所 有 的 Imapla 查询 也 从 YARN 中 请 求 资源 。YARN 是 一 个 集中 管理 的 更 加 通用 的 资源 
管理 服务 。Impala 通过 YARN 申请 资源 将 要 比 准 入 控制 具有 更 高 的 延迟 ， 因 为 它 必须 通过 Llama 
向 YARN 提交 并 返回 请 求 。 

Impala 准 入 控制 提供 了 类 似 于 YARN 的 机 制 ,将 用 户 映 射 到 不 同 的 池 并 提供 必要 的 身份 验证 。 
虽然 YARN 只 支持 CDH5 或 者 更 高 版 本 ， 但 是 Cloudera 对 CDH4 的 底层 架构 进行 了 修改 ， 所 以 
在 CDH4 上 也 是 可 用 的 。 如 果 我 们 使 用 准 入 控制 ， 那 么 也 可 以 不 运行 YARN 和 Liama。 

在 Cloudera Manager 中 ， 如 果 我 们 没有 启用 Llama 角色 ，Impala 将 使 用 准 入 控制 单独 对 资源 
进行 管理 。 如 果 启 用 了 Llama 角色 ，YARN 将 通过 Llama 来 控制 Impala 的 资源 管理 。 单 独 使 用 的 
准 入 控制 功能 为 我 们 提供 了 三 个 属性 : 内 存 限制 、 查 询 队列 大 小 、 超 时 队列 。 如 果 启 用 了 Llama， 
那么 我 们 可 以 修改 的 属性 只 剩 下 了 查询 队列 大 小 和 超时 队列 ， 而 内 存 限 制 参数 将 由 YARN 通过 动 
态 资源 池 进 行 分 配 。 


6.1.3 ”并 发 查询 限制 


准 入 控制 机 制 被 内 嵌 在 每 个 impalad 节点 进程 中 ， 通 过 statestore 进程 进行 相互 通信 。 虽 然 我 
们 在 集群 侧 设置 了 内 存 使 用 限制 和 并 发 查询 的 数目 ， 但 是 对 新 的 查询 请 求 执行 或 者 进入 等 待 队列 
是 由 impalad 进程 自己 决定 的 。 这 也 就 意味 着 准 入 控制 的 开销 很 低 ， 但 是 在 系统 负载 严重 的 时 候 
可 能 不 是 非常 精确 ,也 就 是 说 集群 使 用 的 内 存 和 并 发 查询 的 个 数 可 能 会 偶尔 超过 我 们 指定 的 限制 。 
所 以 在 设置 内 存 限制 时 ， 我 们 可 以 设置 一 个 略 小 于 我 们 预期 的 值 ， 而 在 设置 等 待 队 列 大 小 时 ， 我 
们 可 以 设置 一 个 略 大 于 我 们 预期 的 值 。 

在 查询 等 待 队 列 中 的 查询 包括 集群 中 从 任何 Impalad 进程 节点 提交 的 查询 。 所 有 通过 特定 节 
点 提交 的 查询 将 会 顺序 被 执行 ， 比 如 ， 只 有 在 执行 了 CREATE TABLE 语句 之 后 ， 向 表 中 INSERT 
语句 才 会 执行 成 功 。 而 通过 不 同 节点 提交 的 查询 将 不 会 强制 按 顺 序 执行 。 基 于 这 个 原因 ， 如 果 我 
们 使 用 了 负载 均衡 机 制 或 者 round-robin 调度 机 制 , 这 时 , 所 有 的 语句 都 是 通过 不 同 的 节点 提交 的 ， 


229 


开源 大 数据 分 析 引 擎 Impala 实战 


而 通过 不 同 节点 提交 的 语句 我 们 没有 办 法 保证 其 顺序 ， 为 了 避免 类 似 于 表 在 没有 创建 之 前 就 进行 
插入 的 错误 ， 我 们 需要 提前 创建 好 表 结构 。 也 或 者 我 们 将 CREATE TABLE、INSERT 作为 一 个 单 
独 的 执行 单元 ， 让 这 个 执行 单元 可 以 在 某 一 个 特定 的 impalad 进程 节点 上 提交 ， 以 保证 其 执行 顺 
序 。 

并 发 查询 的 数目 也 是 一 个 软 的 限制 。 为 了 实现 高 吞吐 量 ，Impala 在 节点 级 别 对 传 入 的 查询 请 
求 的 那 一 时 刻 立 即 作 出 是 执行 还 是 放 入 等 待 队 列 的 判断 。 而 做 出 判断 的 那个 时 刻 存 在 的 偶然 性 也 
可 能 导致 Impala 可 能 时 不 时 地 略微 超过 限制 的 数目 。 

为 了 防止 等 待 队 列 中 的 查询 被 大 量 积压 ， 我 们 也 可 以 为 等 待 队列 设置 一 个 上 限 值 。 当 等 待 队 
列 中 的 查询 请 求 达到 上 限 值 后 ， 后 续 的 查询 将 直接 被 终止 而 不 是 被 放 入 等 待 队 列 。 另 外 ， 我 们 可 
以 设置 一 个 超时 时 间 , 在 超过 超时 时 间 后 的 所 有 等 待 队列 中 的 查询 会 被 终止 ,而 不 是 无 限期 等 待 。 
如 果 一 个 集群 经 常 出 现 超时 ， 有 过 多 的 并 发 查询 请 求 ， 或 者 查询 执行 时 间 过 长 的 情况 ， 可 能 就 需 
要 管理 员 介 入 了 。 管 理 员 通过 调查 判断 是 应 该 添加 更 多 的 硬件 资源 ， 还 是 改善 作业 的 调度 ， 还 是 
对 系统 进行 性 能 优化 。 


6.1.4” 准 入 控制 和 Impala 客户 端 协同 工作 
准备 控制 对 JDBC ODBC 这 样 的 客户 端 接口 是 透明 的 : 


(1) 如 果 SQL 语句 被 放 入 等 待 队列 ， 而 不 是 立即 执行 ，API 调用 会 一 直 阻塞 到 语句 从 等 待 
队列 出 现 并 开始 执行 的 时 候 。 也 就 是 说 客户 端 应 用 可 能 立即 接收 到 返回 的 结果 ， 也 可 能 一 直 阻塞 
等 待 返回 结果 。 

(2) 如 果 SQL 语句 由 于 超出 队列 长 度 限制 或 者 内 存 限制 被 终止 执行 ， 客 户 端 应 用 程序 将 会 
接收 到 一 条 描述 性 错误 信息 。 

在 使 用 了 JDBC 或 者 ODBC 的 应 用 程序 中 ， 准 入 控制 有 如 下 限制 和 特殊 的 行为 : 

(1) 如 果 我 们 想 通 过 REQUEST_POOL 参数 将 查询 提交 到 不 同 的 资源 池 , REQUEST_POOL 
参数 必须 在 impala-shell 的 会 话 级 别 设置 ， 或 者 在 集群 侧 启 动 impalad 进程 时 设置 。 

(2) 使 用 MEM_LIMIT 参数 有 时 可 以 解决 Impala 对 复杂 查询 的 内 存 消 耗 估算 不 准确 的 问题 ， 
但 是 这 个 参数 只 能 通过 impala-shell 来 设置 ， 无 法 通过 JDBC 或 者 ODBC 直接 设置 。 

(3) 准 入 控制 不 能 使 用 像 RESERVATION_REQUEST_TIMEOUT 或 者 V_CPU_CORES 等 资 
源 相关 的 参数 。 这 些 参数 只 对 基于 YARN 管理 的 资源 管理 框架 有 效 。 


6.1.5 配置 准 入 控制 


准 入 控制 的 基本 配置 很 简单 ， 比 如 我 们 可 以 只 配置 一 个 资源 池 和 一 组 参数 集合 。 如 果 要 做 到 
精细 化 的 控制 ， 配 置 可 能 要 稍微 复杂 一 些 ， 比 如 我 们 要 使 用 不 同 配置 参数 的 多 个 资源 池 ， 每 个 资 
源 池 捕获 特定 用 户 或 者 组 的 查询 请 求 。 要 完成 这 些 配 置 ， 我 们 可 以 直接 使 用 Cloudera Manager 进 
行 配置 ， 也 可 以 直接 编辑 配置 文件 或 者 控制 impalad 进程 的 启动 参数 来 进行 配置 。 
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1. 使 用 Cloudera Manager 配置 

在 Cloudera Manager 管理 控制 台 上 ， 我 们 可 以 配置 资源 池 ， 管 理 等 待 队 列 ， 设 置 并 发 查询 的 
个 数 限制 以 及 如 何 捕获 到 是 否 超过 了 限制 等 。 

之 后 的 示例 中 将 显示 如 何 使 用 Cloudera Manager 来 配置 这 些 参数 。 


2. 手动 配置 


如 果 我 们 没有 使 用 Cloudera Manager， 我 们 也 可 以 通过 修改 配置 文件 fairschedulerxml 和 
llama-site.xml， 并 修改 impalad 进程 的 启动 参数 来 实现 。 

对 于 一 个 只 使 用 单个 资源 池 〈 默 认 名 称 为 default) 的 简单 配置 ， 我 们 可 以 不 配置 
fair-scheduler.xml 和 llama-site.xml， 只 配置 命令 行 参数 。 

impalad 进程 与 准 入 控制 相关 的 参数 说 明 如 下 : 


(1) --default pool max_queued 


等 待 队列 允许 的 最 大 请 求 的 数目 。 因 为 这 个 限制 是 集群 侧 的 ， 每 个 Impala 节点 都 可 以 独自 决 
定 传 入 的 查询 请 求 是 运行 还 是 放 入 等 待 队列 ， 所 以 这 也 是 一 个 软 限制 。 在 集群 负载 比较 高 时 ， 等 
待 队列 中 的 查询 请 求 可 能 会 略 高 于 限定 的 数目 。 如 果 将 该 参数 指定 为 负数 或 者 0， 表 示 一 旦 达到 
的 并 发 请 求 的 查询 总 数 ， 后 续 的 查询 将 会 被 拒绝 。 如 果 设 定 了 fair scheduler_config_path 和 
llama_site_path， 将 忽略 该 参数 。 

类 型 :int64。 

默认 值 : 0。 


(2) --default pool_max_requests 


该 参数 表示 Impala 允许 的 并 行 执行 的 查询 的 最 大 个 数 。 该 参数 与 default_pool_max_queued 
一 样 ， 是 一 个 软 限制 ， 实 际 生产 环境 中 的 并 发 执行 的 查询 个 数 可 能 会 偶尔 略 高 于 这 个 值 。 如 果 该 
参数 为 负数 表示 没有 限制 。 如 果 设 定 了 fair_scheduler_config path 和 llama_site_path， 将 忽略 该 参 
数 。 

类 型 : int64。 

默认 值 : -1。 

(3) --default_ pool mem limit 

该 参数 表示 所 有 并 发 执行 的 查询 可 以 消耗 的 内 存 的 最 大 值 。 该 参数 支持 的 单位 包括 B，M， 
G。 对 于 M 和 G， 我 们 可 以 使 用 浮 点 数值 ， 比 如 指定 为 1.SM。 如 果 不 使 用 单位 ， 默 认 的 单位 为 
字 节 ， 也 就 是 B。 另 外 ， 我 们 还 可 以 把 该 参数 指定 为 物理 内 存 的 百分比 。 该 参数 是 一 个 软 性 的 限 
制 。 

类 型 : 字符 串 。 

默认 值 : “” 空 字符 串 〈 表 示 无 限制 )。 
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(4) --disable_ admission_control 

该 参数 表示 关闭 准 入 控制 功能 。 

类 型 : BOOLEAN。 

默认 值 : FALSE。 

(5) --disable pool max_requests 

该 参数 表示 禁用 所 有 的 资源 池 对 并 发 查询 请 求 个 数 的 限制 。 
类 型 : BOOLEAN。 

默认 值 : FALSE。 
(6)--disable_pool_ mem limits 

该 参数 禁用 所 有 资源 池 对 内 存 的 限制 。 
类 型 ， BOOLEAN。 

默认 值 : FALSE。 

(7) --fair_scheduler_allocation_path 


该 参数 指定 公平 调度 器 的 配置 文件 fair-scheduler.xml 的 路 径 。 准 入 控制 只 有 一 小 部 分 配置 可 


以 在 这 个 配置 文件 中 配置 。 


类 型 ，STRING。 
默认 值 : “” 空 字符 串 。 


(8) --llama_site_path 
该 参数 指定 Llama 配置 文件 llama-sitexml 的 路 径 。 如 果 设 置 了 该 参数 ， 


人 air scheduler allocation_path 参数 也 必须 被 设置 。 准 入 控制 只 有 一 小 部 分 配置 可 以 在 这 个 配置 文 
件 中 配置 。 


类 型 ， STRING。 
默认 值 : “” 空 字符 串 。 


(9) --queue_wait_ timeout ms 

该 参数 表示 一 个 请 求 被 接受 之 前 需要 等 待 的 最 长 毫秒 数 。 

类 型 : int64。 

默认 值 : 60000。 

对 于 更 高 级 的 使 用 多 资源 池 的 配置 ， 我 们 需要 手动 修改 fair-scheduler.xml 和 llama-site.xml 配 


置 文件 。 同 时 在 Impalad 进程 的 命令 行 参数 中 配置 --fair scheduler allocation_path 和 
--llama_site_path 选项 指定 参数 文件 的 位 置 。 


Impala 准 入 控制 功能 只 使 用 完全 公平 的 调度 器 配置 用 户 或 者 组 和 不 同 资源 池 的 映射 关系 。 比 


第 6 章 Impala 管理 


如 ， 我 们 可 以 使 用 不 同 的 内 存 限 制 、 并 发 查询 数 、 等 待 队 列 的 长 度 的 资源 池 以 满足 不 同 用 户 的 需 
要 。 


Impala 准 入 控制 使 用 的 Llama 配置 文件 中 的 属性 包括 : 


3. 准 入 控制 配置 示例 


下 图 显示 了 Cloudera Manager 中 动态 资源 池 页 面 的 示例 。root 池 包 括 所 有 的 资源 池 。default 
池 用 来 指向 那些 没有 显 式 的 分 配 资源 池 的 用 户 。development 池 和 production 池 则 演示 了 我 们 可 以 
为 不 同类 的 用 户 指定 不 同 的 限制 。 


Dynamic Resource Pools for Cluster 1 


全 Siatus conflguration 


时 Resource Pools 。 丽 Schedullng Rules 。 圈 Placement Rules 。 星 UserLimits /OtherSettings 


Applications © can run n a pool based on me user, ma group of me supmmmng user, as Well as spectfic © pooks and the oetau pool 


Mlocate resources across pools usng weignts, minimum, and maximum Imns. Connguranon sets alow swnching on qmerent welgnt and tm 
‘settings actvated by user-defined schedules, 


Poots can be nestecl, each level of which can support a difierent scheduler such as FIFO or fair scheduler Each pool can be confgured Io 
allow only a certaln set of users and groups io access he pool 


| + wapesoocero orem ses oot. + acdconrouraion se 


YARN Impala 
We Nam Max 。 Ma 
err % WeDor Mio Running nng Queueg 
Apps Overles Dueries 
root 1 100.0% -/- -/- -DAF ~ GEdt ~ 
deraun 1 333% 1/ /- oRF 50000MB 1 5 Ged ~ 
development 1 333% -- -- -DRAF 200000MB 5 10 Gedt - 
production 1 333% / 1- ~ DRF ooooowe io 20 geqt ~ 


下 图 的 预 置 的 规则 配置 了 一 个 名 称 为 default 的 资源 池 接 收 如 下 情况 的 请 求 : 


日 指定 资源 池 不 存在 
e 未 显示 指定 资源 池 
日 用 户 或 组 没有 指定 资源 池 
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Dynamic Resource Pools for Cluster 1 
会 Status ”Aconfiguration 


呈 Resource Pools 。 菌 Scheduling Rules 器 PlacementRules 旦 UserLimits /OtherSettings 


Applications © can run in a pool based on the user the group of the submiting user, as well as specific © pools and the default pool. 
Configure how an application will determine In which pool it will run. 


O Basic 

© Advanced 
‘Specily the order in which rules are evaluated to determine in which pool an application wil run. 
Ifa rule ls always satisfied, subsequent rules are not evaluated and appear disabled Ifa rule has a condition that is not 
satisfied, subsequent rules are evaluated When none of the rules apply, the application is rejected. 


specified pool only ifthe pool exlsts. ~ -+ 


default pool; create the pool ifit doesn't exist ~ - This rule is always satisfied. 
Subsequent rules are not evaluated. 


对 于 不 使 用 Cloudera Manager 管理 的 集群 ， 我 们 提供 了 与 上 述 资 源 池 定 义 类 似 的 
fair-scheduler.xml 和 llama-site.xml 样 例 配置 文件 。 这 个 示例 文件 是 从 生产 环境 中 取 下 来 的 ， 包 括 
了 YARN 和 Llama 配置 的 不 同方 面 。 


即使 Impala 不 使 用 vcores 值 我 们 也 必须 匹配 YARN 的 要 求 制定 该 值 每 个 <aclSubmitApps> 
标签 包含 了 这 样 的 一 个 格式 : 一 个 逗号 分 隔 的 用 户 列表 ， 一 个 空格 ， 一 个 逗号 分 隔 的 组 列表 。 这 
里 制定 的 用 户 和 组 可 以 访问 与 这 个 标签 对 应 的 资源 池 。 如 果 这 对 标签 中 间 是 空 的， 那么 表示 所 有 
人 都 不 能 直接 使 用 这 个 资源 池 。 子 资源 池 可 以 拥有 自己 的 <aclSubmitApps> 标 签 指定 可 以 访问 自己 
的 用 户 和 组 。 
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6.1.6 ”使 用 准 入 控制 指导 原则 


为 了 确认 准 入 控制 是 否 对 查询 生效 ， 我 们 可 以 检查 查询 的 PROFILE 的 输出 。 在 impala-shell 
中 执行 完 一 个 查询 之 后 立刻 运行 PROFILE， 在 Impala 调试 的 web 界面 或 者 在 日 志文 件 中 ， 我 们 
就 可 以 看 到 相关 信息 。 这 些 信 息 包括 像 查 询 是 否 进入 了 等 待 队列 ， 使 用 了 哪个 资源 池 等 准 入 控制 
的 相关 信息 。 它 还 包括 了 估算 的 内 存 消 耗 和 真实 的 内 存 消耗 ， 通 过 这 些 信 息 我 们 可 以 很 好 的 调整 
资源 池 的 内 存 限制 参数 。 

在 实践 中 ,我 们 推荐 使 用 Cloudera Manager 来 配置 准 入 控制 的 相关 参数 。 毕 竟 通 过 GUI 来 修 
改 配置 信息 要 比 手动 修改 配置 文件 要 简单 的 多 。 而 在 Cloudera Manager 4 中 ， 我 们 不 能 通过 图 形 
界面 来 进行 配置 ， 只 能 使 用 为 impalad 进程 指定 启动 参数 的 方式 。 

我 们 要 时 刻 谨 记 所 有 的 准 入 控制 的 参数 都 是 软 限 制 .所 有 的 是 否 超出 限制 的 判断 都 是 Impalad 
进程 节点 依赖 于 statestore 服务 传送 的 信息 单独 作出 的 判断 。 瞬 时 又 增 的 查询 请 求 可 能 导致 内 存 的 
使 用 超出 Impala 的 软 限制 ， 作 为 后 备 方案 ， 我 们 可 以 使 用 Linux 的 cgroups 机 制 来 硬性 限制 内 存 
的 使 用 ， 以 防止 内 存 过 载 的 情况 出 现 。 

如 果 我 们 遇 到 了 一 个 查询 由 于 Impala 对 它 的 估算 内 存 过 高 而 带 来 的 问题 ， 我 们 可 以 在 
impala-shell 中 设置 MEM_LIMIT 参数 覆盖 估算 内 存 值 ， 然 后 在 同一 个 会 话 中 执行 该 查询 。 这 个 值 
会 被 视 为 Impala 对 查询 的 估算 值 覆盖 Impala 真正 通过 表 和 列 统计 信息 计算 出 来 的 估算 值 。 另 外 ， 
这 个 值 仅 用 于 准 入 控制 的 判断 ， 而 不 是 真 的 要 给 查询 预 分 配 这 么 多 的 内 存 。 

在 impala-shell 中 ， 我 们 可 以 直接 设置 REQUEST_POOL 参数 用 于 指定 使 用 哪个 资源 池 。 

被 准 入 控制 影响 的 语句 主要 是 查询 语句 ， 但 是 也 包括 像 写 数据 的 INSERT 或 者 CREATE 
TABLE SELECT 语句 等 。Impala 中 大 多 数 写 操作 消耗 的 资源 都 不 很 明显 ， 但 是 如 果 是 想 Parquet 
表 中 插入 数据 ,Impala 要 为 每 个 1GB 的 Parquet 数据 块 消耗 1GB 的 内 存 作 为 缓存 , 这 是 不 小 的 内 
存 消耗 。 
虽然 准 入 控制 不 检查 DDL 语句 对 内 存 的 消耗 情况 ， 但 是 如 果 碰 巧 达到 了 并 发 数 或 者 内 存 限 
制 ，DDL 语句 也 会 进入 等 待 队 列 。 如 果 系 统 有 了 足够 的 资源 ， 通 过 同一 个 会 话 进入 队列 的 语句 会 
依据 原 有 的 顺序 进行 执行 : 


select * from huge table join enormous table using (id); 


对 于 大 表 关 联 这 样 高 内 存 消耗 的 语句 ， 在 Impala 计算 (判断) 它 如 果 运 行将 导致 现 有 集群 的 
内 存 超出 限制 时 ， 该 语句 将 进入 等 待 队列 。 


drop table huge table; 


如 果 第 一 个 语句 进入 等 待 队 列 ， 那 么 后 续 的 语句 ， 哪 怕 是 DDL 语句 也 会 进入 等 待 队 列 。 
如 果 我 们 为 不 同 的 用 户 和 组 设置 了 不 同 的 资源 池 ， 我 们 可 以 考虑 重用 在 Sentry 中 使 用 的 分 类 
和 层次 。 
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6 . 2 使 用 YARN 资源 管理 (CDH5) 


在 Impala 中 ， 我 们 可 以 通过 限制 CPU 和 内 存 资源 来 控制 集群 的 负载 。 在 CDH5 中 ，Impala 
也 可 以 运行 在 基于 YARN 的 资源 管理 的 框架 之 下 ， 由 YARN 负责 为 每 个 Impala 查询 分 配 资源 。 
Impala 负责 计算 每 个 查询 需要 的 资源 ， 并 向 YARN 提交 申请 。 

通过 Impala 向 YARN 申请 资源 的 请 求 使 用 过 Llama 服务 调用 进行 的 。 如 果 Impala 的 资源 请 
求 被 允许 , 那么 它 将 所 有 的 执行 线程 放 入 Cgroup 容器 ， 为 每 个 节点 设置 内 存 限制 并 启动 查询 。 如 
果 此 时 集群 没有 足够 的 资源 可 用 ，Impala 将 会 持续 等 待 ， 直 到 其 他 的 作业 执行 结束 有 了 足够 的 资 
源 为 止 。 

在 查询 执行 完成 之 后 ，Llama 将 缓存 已 经 使 用 的 资源 (比如 ， 内 存 不 会 被 释放 )， 这 样 就 不 必 
为 后 续 的 Impala 查询 频繁 创建 这 些 资源 。 如 果 是 YARN 中 其 他 类 型 的 作业 需要 这 些 资源 ，Llama 
就 会 将 这 些 资源 返还 给 YARN。 

在 一 个 负载 压力 比较 大 的 集群 上 ， 某 些 查询 由 于 对 资源 的 延迟 等 待 可 能 响应 时 间 会 变 的 无 法 
控制 ， 然 而 这 样 做 的 优势 是 整个 集群 的 性 能 负载 变化 会 比较 均匀 , 不 会 出 现 那 种 CPU 突然 利用 率 
达到 百分之百 或 者 内 存 突然 不 够 用 而 导致 换 页 的 情况 。 


6.2.1 Llama 进程 


Llama 是 位 于 Cloudera Impala 和 Hadoop YARN 之 间 的 资源 管理 系统 ,Llama 可 以 控制 Impala 
预 留 、 使 用 、 释放 从 Hadoop 集群 申请 的 资源 。 如 果 要 使 用 YARN 对 Impala 进行 资源 管理 ，Llama 
是 必须 的 。 

默认 情况 下 ， 对 于 MapReduce 作业 ，YARN 采用 按 位 分 配 资源 的 方式 。 而 对 于 Impala 作业 ， 
为 了 保证 中 间 的 计算 结果 在 集群 各 节点 之 间 交 换 , 而 不 是 让 查询 在 执行 过 程 中 再 去 等 待 申 请 资源 ， 
它 需要 所 有 的 资源 必须 同时 申请 到 ， 同 时 可 用 。Llama 可 以 确保 在 Impala 查询 开始 执行 之 前 所 有 
的 集群 中 所 有 节点 的 资源 同时 申请 到 位 。 


6.2.2 ”检查 计算 的 资源 和 实际 使 用 的 资源 


为 了 使 资源 使 用 情况 便于 确认 ，SQL 的 EXPLAIN 命令 输出 的 执行 计划 包括 了 关于 内 存 估 算 
情况 ， 表 和 列 统计 信息 是 否 可 用 ， 查 询 将 要 使 用 的 虚拟 核 数 等 信息 。 我 们 可 以 不 运行 查询 ， 只 对 
语句 执行 EXPLAIN 来 查看 这 些 信 息 。 如 果 想 了 解 更 多 的 详细 的 信息 ， 需 要 指定 查询 参数 
EXPLAIN_LEVEL=verbose。 类 似 的， 在 impala-shell 中 使 用 PROFILE 语句 也 可 以 看 到 这 些 相关 
的 信息 。 但 是 如 果 想 通过 PROFILE 看 到 详细 的 信息 ， 需 要 先 真正 地 运行 过 (查询 ) 一 次 才 可 以 。 
如 果 我 们 发 现在 启用 了 资源 管理 的 系统 上 查询 语句 运行 失败 或 者 有 性 能 问题 ， 我 们 首先 需要 做 的 
就 是 搜集 统计 信息 ， 调 整 查询 参数 。 
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6.2.3 资源 限制 如 何 生效 


CPU 的 限制 通过 Linux 的 Cgroup 机 制 实现 。YARN 为 与 各 机 器 关联 的 Cgroup 组 的 容器 分 配 
授权 资源 。 

内 存 限 制 通过 Impala 的 查询 内 存 上 线 进行 限制 。 一 旦 一 个 查询 请 求 被 授权 允许 执行 ，Imapla 
在 查询 执行 之 前 就 会 根据 所 授予 的 内 存 数量 对 查询 能 够 使 用 的 内 存 进行 限制 。 


6.2.4 启用 Impala 资源 管理 


如 果 要 启用 Impala 的 资源 管理 ， 我 们 必须 首先 在 集群 中 安装 YARN 和 Llama 服务 。 
YARN 是 一 个 对 Hadoop 集群 组 件 进行 资源 管理 的 通用 服务 ，Llama 是 作为 YARN 和 Impala 
之 间 资 源 管理 的 桥接 服务 : 将 Impala 的 查询 请 求 发 送 到 YARN， 确 保 Impala 在 查询 在 执行 之 前 
能 够 从 YARN 申请 到 所 有 可 用 的 资源 。 
接 下 来 介绍 一 下 Impala 资源 管理 启动 参数 。 以 下 是 启用 Impala 资源 管理 后 的 集群 定制 化 参 
数 : 
-enable rm: 是 否 启用 资源 管理 。 这 是 一 个 布尔 型 参数 ， 默 认 值 为 FALSE。 如 果 该 参数 为 
默认 值 ， 那 么 其 他 的 资源 管理 的 参数 都 不 会 生效 。 
e@ -llama_host Impala 需要 连接 到 的 Llama 服务 的 主机 名 或 者 卫 地 址 。 默 认 值 为 127.0.0.1。 
e -llama_port: Impala 需要 连接 到 的 Llama 服务 的 端口 号 。 默 认 值 为 15000。 
® -cgroup_hierarchy_path: YARN 和 Llama 需要 创建 的 用 于 授权 资源 的 Cgroup 组 的 路 径 。 
Impala 默认 使 用 的 容器 分 配 的 Cgroup 组 的 路 径 为 “cgroup_hierarchy_path 
+container id”。 


6.2.5 资源 管理 相关 impala-shell 参数 
在 通过 impala-shell 执行 SQL 之 前 ， 我 们 可 以 通过 SET 命令 设 定 资源 管理 的 相关 参数 有 : 


EXPLAIN_LEVEL 
MEM_LIMIT 
RESERVATION_REQUEST_TIMEOUT 


外 
二 
二 
® V CPU CORES 


这 些 参数 在 impala-shell 章节 中 已 介绍 。 


6.2.6 Impala 资源 管理 的 限制 
目前 ， 在 CDH5 中 ， 对 Impala 查询 有 如 下 限制 : 
e 表 和 列 统计 信息 对 于 Impala 估算 这 个 查询 请 求 需要 的 内 存量 是 一 个 非常 重要 的 参考 依据 
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e@ 当 Impala 为 一 个 查询 实际 申请 的 内 存 超过 它 估算 的 内 存 时 ， 这 个 查询 将 会 终止 执行 。 即 
使 表 和 列 统计 信息 是 准确 的 ， 对 于 某 些 复杂 查询 Impala 也 可 能 估算 出 现 偏差 导致 其 终止 
执行 在 一 个 查询 执行 失败 之 后 ， 我们 可 以 在 impala-shell 中 执行 PROFILE 命令 来 确认 它 
实际 使 用 的 内 存 数量 。 我 们 可 以 将 MEM_LIMIT 设 定 为 一 个 更 大 的 值 重新 执行 查询 。 

e MEM_LIMIT 和 其 他 的 查询 参数 一 样 ， 无 法 通过 JDBC 或 者 ODBC 接口 来 控制 。 


昌 . 池 ” 为 进程 , 查询 ,会 话 设 定 超时 限制 


我 们 可 以 依据 CDH 集群 的 繁忙 程度 来 增 减 不 同 的 超时 参数 。 
1. 增加 Statestore 超时 参数 


如 果 我 们 的 Impala 包含 太 多 的 元 数据 (比如 有 上 千 个 数据 库 ， 上 万 张 表 的 集群 )， 在 集群 启 
动 时 需要 使 用 Statestore 服务 来 将 元 数据 广播 到 所 有 节点 时 可 能 出 现 超时 错误 , 为 了 避免 这 种 超时 
错误 ， 我 们 需要 将 集群 默认 的 10 秒 钟 的 超时 时 间 改 大 。 我 们 可 以 通过 
-statestore_subscriber_timeout_seconds 参数 来 设 定 。 在 出 现 这 种 超时 错误 是 ，impalad 日 志 可 能 出 
现 如 下 信息 : 


Connection with state-store lost 
Trying to re-register with state-store 


2. 为 impalad 设 定 空闲 超时 


为 了 防止 长 时 间 运 行 的 查询 或 者 空闲 的 会 话 对 集群 资源 的 浪费 ， 我 们 可 以 为 单独 的 查询 或 者 
整个 会 话 设置 超时 时 间 。 在 impalad 进程 启动 时 ， 我 们 需要 设置 以 下 参数 : 


e@ --idle query timeout: 在 超过 了 指定 的 时 间 后 ， 空 闲 的 查询 将 会 被 终止 。 这 里 的 空闲 查询 
指 的 是 一 个 已 经 返回 了 所 有 结果 集 但 是 没有 关闭 的 查询 或 者 是 已 经 返回 了 部 分 结果 但 是 
客户 端 终止 了 查询 请 求 的 查询 。 这 些 情况 不 会 出 现在 impala-shell 中 ， 但 可 能 经 常 出 现在 
JDBC 或 者 ODBC 接口 调用 时 。 一 旦 这 个 查询 被 终止 ， 客 户 端 将 无 法 获取 结果 。 

ee --idle session timeout: 该 参数 用 于 指定 空闲 会 话 的 超时 时 间 。 这 里 的 空闲 会 话 指 的 是 一 个 
没有 运行 任何 查询 的 会 话 。 一 旦 会 话 超时 ， 虽 然 它 仍然 处 于 打开 状态 ， 但 是 我 们 将 不 能 通 
过 这 个 会 话 发 送 任何 查询 请 求 ， 我 们 唯一 可 以 做 的 动作 就 是 关闭 这 个 会 话 。 该 参数 默认 值 
为 0， 表 示 会 话 永远 不 会 超时 。 
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6.4 通过 代理 实现 Impala 高 可 用 性 


对 于 一 个 繁忙 的 ， 有 很 大 负载 的 一 个 集群 来 说 ， 我 们 可 以 需要 配置 一 个 代理 服务 器 来 转发 
Impala 的 请 求 。 这 样 做 的 优势 如 下 : 


® 应 用 程序 只 需要 连接 到 单 台 机 器 的 一 个 端口 ， 而 无 须 关 注 具体 的 impalad 进程 节点 信息 。 

e 如 果 某 个 impalad 进程 节点 失效 ， 客 户 端 应 用 程序 仍然 可 以 正常 向 代理 服务 器 转发 请 求 。 

@ 协调 者 节点 一 般 情 况 下 会 消耗 比 其 他 节点 更 多 的 CPU 和 内 存 资 源 。 代 理 服 务 器 可 以 利用 
ROUND-ROBIN 算法 将 查询 请 求 发 送 到 不 同 的 节点 ， 因 此 每 次 连接 都 使 用 不 同 的 协调 者 
节点 ， 避 免 了 单个 节点 的 资源 过 度 消耗 。 


如 果 要 使 用 负载 均衡 技术 ， 我 们 可 以 大 致 按照 以 下 步骤 进行 : 


人 ED) 下 载 负载 均衡 代理 服务 器 软件 ， 并 进行 安装 。 
D02 对 软件 进行 配置 设置 用 来 转发 Impala 请 求 的 相关 配置 信息 。 
二 03 指定 每 个 Impala 节点 的 主机 名 称 和 端口 号 。 代 理 服务 器 将 查询 请 求 转发 到 我 们 指定 的 
主机 端口 。 
人 64 使 用 相应 的 配置 文件 来 启动 代理 服务 器 软件 。 
1. 使 用 Kerberos 


如 果 集 群 启用 了 Kerberos， 为 了 避免 人 为 的 攻击 ， 应 用 程序 会 检查 主机 凭据 以 确认 正在 连接 
到 的 主机 和 真正 处 理 请 求 的 主机 是 同一 台 。 为 了 让 Kerberos 确认 我 们 的 连接 请 求 的 合法 性 ， 我 们 
需要 执行 以 下 步 又: 


人 ED) 确认 集群 启用 了 Kerberos。 

本 B02 确定 我 们 将 要 使 用 的 代理 服务 器 的 主机 。 使 用 基本 的 Kerberos 安装 ， 在 它 的 keytab 中 
应 该 已 经 有 了 类 似 与 impala/proxy_host@realm 的 条 目 。 如 果 没 有 该 条 目 ， 我 们 需要 重 
新 初始 化 Kerberos 配置 过 程 。 

703 将 keytab 文件 措 贝 到 所 有 的 Impalad 进程 节点 上 , 将 该 文件 放 在 每 台 主机 的 相对 安全 的 
位 置 上 。 

人 4 为 每 台 Impalad 进程 节点 的 keytab 添加 条 目 impala/actual_hostname@realm。 

人 05 在 每 个 impalad 进程 节点 上 ， 使 用 ktutil 工具 合并 已 存在 的 keytab 和 代理 服务 器 的 
keytab ， 生 成 一 个 新 的 keytab 文件 。 
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306 确保 impala 用 户 对 该 文件 有 读 权限 。 
人 07 修改 每 个 参与 负载 均衡 的 impalad 进程 节点 的 启动 参数 。 在 Impalad 参数 定义 或 者 
Cloudera Manager 安全 阀 字段 添加 : 


二 F038 如 果 使 用 Cloudera Manager 管理 ， 则 需要 重启 Impala 服务 。 


如 果 没 有 使 用 Cloudera Manger 管理 ， 需 要 重启 所 有 Impalad 进程 节点 和 statestored、catalogd 
服务 。 


2. HAProxy 配置 示例 


如 果 我 们 还 没有 使 用 负载 均衡 代理 服务 器 ， 我 们 可 以 选择 HAProxy。 它 是 一 个 免费 、 开 源 的 
负载 均衡 器 。 如 下 示例 我 们 将 介绍 如 何在 RedHat Linux 企业 版 上 安装 和 配置 该 负载 均衡 器 。 


GDI01 安装 负载 均衡 器 。 


02 设置 配置 文件 haproxy'c 他 。 见 稍 后 示例 。 
人 03 运行 负载 均衡 器 。( 负载 均衡 代理 服务 器 最 好 不 要 使 用 Impalad 进程 节点 。 ) 


人 4 在 impala-shell, JDBC 或 者 ODBC 应 用 程序 中 不 要 再 连接 到 Impalad 进程 节点 ， 而 是 连 
接 到 代理 服务 器 haproxy_host:25003。 


3. 配置 文件 haproxy.cfg 示例 
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名 .管理 磁盘 空间 


虽然 Impala 存储 通常 使 用 HDFS 上 的 许多 大 文件 ， 但 是 我 们 还 是 可 以 通过 文件 清理 释放 空 
间 ， 或 者 让 开发 者 减少 文件 复制 等 尽 可 能 少 的 消耗 空间 。 


(1) 在 生产 环境 中 使 用 二 进 制 压缩 文件 。 其 中 数字 类 型 和 时 间 日 期 类 型 压缩 率 较 高 。 但 是 不 
同 的 文件 格式 提供 的 压缩 比 不 同 。 我 们 可 以 在 CREATE TABLE 时 使 用 STORED AS 选项 或 者 使 
用 ALTER TABLE 时 指定 SET FILEFORMAT 子 句 来 改变 表 或 者 分 区 的 存储 格式 。 

(2) 我 们 可 以 管理 Impala 内 部 表 和 外 部 表 的 数据 文件 。 


使 用 DESCRIBE FORMATTED 语句 来 确认 表 是 内 部 表 还 是 外 部 表 ， 在 HDFS 上 的 具体 位 置 
信息 等 。 

对 于 Impala 内 部 表 ， 我 们 可 以 使 用 DROP TABLE 命令 删除 数据 文件 。 

对 于 Impala 外 部 表 ， 我 们 可 以 使 用 像 hadoop 仿 、hdfs dfs、distcp 等 Hadoop 相关 的 命令 来 创 
建 、 移 动 、 找 贝 或 者 删除 文件 。 对 HDFS 上 的 文件 操作 执行 完成 之 后 ， 我 们 需要 执行 REFRSH 
table_name 命令 更 新 外 部 表 的 元 数据 信息 。 

使 用 直接 指向 HDFS 上 原始 数据 文件 的 位 置信 息 创建 Impala 的 外 部 表 可 以 有 效 的 避免 对 数据 
文件 的 复制 。 我 们 可 以 把 一 个 数据 文件 映射 到 多 张 Impala 外 部 表 。 当 我 们 删除 Impala 外 部 表 时 ， 
数据 文件 不 会 被 级 联 删 除 。 

使 用 LOAD DATA 命令 将 HDFS 上 的 文件 移动 到 Impala 的 数据 目录 时 ,无 须 指定 要 加 载 的 目 
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标 位 置信 息 。 这 项 技术 对 于 Impala 的 内 部 表 和 外 部 表 都 适用 。 

(3) 确保 HDFS 的 回收 站 信息 正确 配置 。 当 我 们 从 HDFS 上 删除 文件 之 后 ， 相 应 的 空间 可 
能 由 于 回收 站 的 配置 而 不 被 释放 。 

(4) 在 删除 一 个 数据 库 之 前 请 先 删 掉 数据 库 中 所 有 的 表 。 

(5) 在 INSERT 语句 执行 失败 后 及 时 清理 临时 文件 。 如 果 一 个 INSERT 语句 执行 失败 , 我 们 
可 以 在 数据 目录 中 看 到 一 个 名 为 .impala_insert_staging 的 目录 ， 这 个 目录 包含 插入 数据 的 临时 文 
件 ， 会 占用 空间 。 如 果 是 由 于 权限 错误 等 其 他 外 部 原因 而 导致 无 法 移动 这 些 文件 ， 那 么 我 们 可 以 
根据 提示 纠正 错误 。 如 果 是 我 们 是 由 于 内 部 错误 无 法 插入 数据 ， 那 么 我 们 可 能 需要 使 用 Hadoop 
文件 系统 的 命令 删除 这 些 文件 。 使 用 DESCRIBE FORMATTED table_name 语句 可 以 查看 临时 文件 
在 HDFS 上 的 位 置信 息 。 
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Impala 支持 Apache Hadoop 常用 的 文件 格式 。Impala 可 以 加 载 或 者 查询 通过 像 Pig 或 者 
MapReduce 等 其 他 组 件 产生 的 数据 文件 ， 同 样 的 Impala 产生 的 数据 文件 也 可 以 为 其 他 Hadoop 组 


件 所 使 用 。 本 章 将 讨论 每 种 文件 格式 的 使 用 、 限 制 ， 以 及 对 性 能 的 影响 。 


对 于 同样 数据 的 Impala 表 , 使 用 不 同 的 文件 格式 存储 对 性 能 的 影响 非常 大 。 某 些 文件 格式 支持 
压缩 功能 , 这 将 直接 影响 存储 的 文件 的 大 小 , 读 取 该 表 产 生 的 10， 以 及 用 于 解压 缩 数据 的 CPU 消 
耗 等。 通常 情况 下 ,我 们 将 数据 存储 为 压缩 格式 的 。 通 过 压缩 数据 ,我们 在 将 数据 读 入 内 存 时 会 


消耗 更 少 的 IO 和 内 存 资源 ,但 同 


时 由 于 多 了 解压 数据 的 过 程 ， 会 消耗 更 多 的 CPU 资源 。 


文件 格式 选择 


Impala 支持 Hadoop 中 流行 的 大 多 数 文件 格式 和 压缩 方式 。 有 些 文件 格式 ，Impala 可 以 直接 
创建 该 格式 文件 的 表 ， 并 对 其 进行 查询 操作 ;而 对 于 另外 一 些 文件 格式 ，Impala 不 支持 直接 写 入 
操作 ， 我 们 需要 通过 Hive 创建 表 ， 并 通过 INVALIDATE METADATA 语句 将 元 数据 信息 同步 到 
Impala， 之 后 就 可 以 通过 Impala 来 对 数据 进行 查询 了 。 文 件 格式 也 可 以 被 结构 化 ， 在 这 种 情况 下 
它 自身 包含 元 数据 信息 或 者 内 置 的 压缩 类 型 。 支 持 的 文件 格式 如 下 表 所 示 : 


Parquet 结构 化 Snappy， 


非 结构 化 


当前 默认 Snappy 


Impala 是 否 可 直接 创建 
GZIP 


是 。 使 用 CREATE TABLE 
创建 表 是 默认 的 文件 格 
式 ， 各 字段 通过 ASCII 码 
0x01 分 隔 〈 也 就 是 Ctrl-A ) 


Impala 是 否 可 直接 插入 
是 。 CREATE TABLE 、 
INSERT、LOAD DATA 或 
者 查询 均 可 
是 。CREATE TABLE、 
INSERT、LOAD DATA 或 
者 查询 均 可 。 如 果 使 用 了 
LZO 方式 压缩 ,必须 在 Hive 
完成 创建 表 和 加 载 数 据 的 
过 程 
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( 续 表 ) 
文件 类 型 格式 压缩 编码 Impala 是 否 可 直接 创建 Impala 是 否 可 直接 插入 
Avro 结构 化 是 。 在 Impala 1.4.0 或 者 更 | 否 。 通 过 LOAD DATA 加 

高 版 本 可 以 但 是 在 低 版 本 | 载 已 经 具有 正确 格式 的 文 
中 必须 通过 Hive 创建 件 ， 或 者 通过 Hive 使 用 
INSERT 的 方式 加 载 
RCFile 结构 化 Snappy ， GZIP ， | 是 否 。 通 过 LOAD DATA 加 
deflate，BZIP2 载 已 经 具有 正确 格式 的 文 
件 ， 或 者 通过 Hive 使 用 
INSERT 的 方式 加 载 
SequenceFile | 结构 化 Snappy ， GZIP ， 否 。 通 过 LOAD DATA 加 
deflate, BZIP2 载 已 经 具有 正确 格式 的 文 
件 ， 或 者 通过 Hive 使 用 
INSERT 的 方式 加 载 
HFile 结构 化 否 。 必 须 通 过 Hive 创建 是 。 支 持 INSERT 操作 
(HBase) 


Impala 支持 如 下 的 压缩 编码 : 


e@ Snappy。 这 是 推荐 使 用 的 压缩 算法 ， 因 为 它 在 压缩 率 和 解压 速度 上 实现 了 很 好 的 平衡 。 
Snappy 的 速度 非常 快 ， 但 是 GZIP 更 节省 空间 。 该 算法 不 支持 文本 文件 。 

e GZIP。 当 我 们 以 节省 磁盘 空间 为 目的 ， 需 要 更 高 的 压缩 比 时 ， 这 种 算法 提供 了 一 个 很 好 
的 选择 。 该 算法 不 支持 文本 文件 。 

@ Deflate。 该 算法 不 支持 文本 文件 。 

e。 BZIP2。 该 算法 不 支持 文本 文件 。 

@ LZO。 该 算法 只 支持 文本 文件 。Impala 可 以 直接 查询 基于 LZO 压缩 的 表 ， 但 是 目前 不 能 
直接 创建 基于 LZO 压缩 的 表 ， 也 不 能 直接 向 其 中 插入 数据 ， 创 建 和 插入 数据 的 操作 必须 
通过 Hive 来 完成 。 


不 同 的 文件 格式 和 压缩 方式 与 具有 不 同 特点 的 数据 集 能 够 更 好 的 协同 工作 。 无 论 使 用 哪 种 文 
件 格式 ，Impala 都 可 以 在 一 定 程度 上 提供 良好 的 性 能 ， 但 是 为 具有 不 同 特点 的 数据 选择 合适 的 文 
件 格式 ， 我 们 能 够 获得 更 大 的 性 能 提升 。 对 于 一 个 指定 的 表 ， 我 们 应 该 使 用 哪 种 文件 格式 ， 哪 种 
压缩 方式 可 以 依据 以 下 几 点 : 


(1) 如 果 已 经 存在 的 数据 文件 格式 是 被 Impala 支持 的 ， 那 么 我 们 的 Impala 表 通 常 使 用 同样 
的 文件 格式 。 除 非 原始 的 文件 格式 的 性 能 、 资 源 使 用 率 等 不 能 满足 应 用 的 要 求 ， 那 我 们 就 要 使 用 
不 同 的 文件 格式 和 压缩 方式 来 重建 这 张 表 。 重 建 时 ， 我 们 可 以 使 用 INSERT 语句 将 所 有 数据 拷贝 
到 新 表 中 。 当然 , 我 们 要 依据 新 选择 的 文件 格式 是 否 被 Impala 支持 来 确定 是 在 Impala 还 是 在 Hive 
中 执行 INSERT 操作 。 

(2) 通常 情况 下 , 很 多 工具 可 以 直接 生成 文本 文件 , 而 且 文本 文件 因为 其 易 读 性 也 决定 了 它 
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方便 校 验 和 调试 。 这 些 都 是 为 什么 Impala 将 其 作为 CREATE TABLE 默认 文件 格式 的 原因 。 但 是 
如 果 性 能 和 系统 资源 利用 率 是 我 们 最 关注 的 要 求 时 ， 我 们 需要 选择 其 他 的 文件 格式 和 压缩 方式 。 
很 多 时 候 ， 我 们 都 是 通过 拷贝 CSV 或 者 TSV 文件 将 数据 加 载 到 Impala 表 中 ， 然 后 再 使 用 
INSERT .…. SELECT 的 方式 将 数据 复制 到 基于 其 他 数据 格式 的 Impala 表 中 。 

(3) 如 果 我 们 自身 的 架构 将 被 查询 的 数据 存放 在 内 存 中 , 那么 请 不 要 使 用 压缩 。 因 为 在 内 存 
中 查询 没有 与 磁盘 交互 的 IO 消耗 ， 同 时 又 增加 了 对 数据 解压 时 CPU 的 负载 。 


7 。 2 Text 


Impala 支持 使 用 Text 文件 作为 存储 的 文件 格式 来 。 文本 文件 便于 阅读 ,便于 在 不 同 的 应 用 之 
间 交 换 数据 。 

文本 文件 的 列 定义 非常 灵活 。 例 如 ， 一 个 文本 文件 可 以 包含 比 Impala 表 定义 的 更 多 的 字段 。 
在 Impala 进行 查询 时 ， 将 会 忽略 那些 多 出 来 的 额外 的 字段 。 如 果实 际 的 文本 文件 包含 的 字段 比 表 
定义 中 的 少 ， Impala 表 中 定义 的 比 实际 文件 多 的 字段 将 统统 被 认为 是 NULL 值 。 在 Impala 表 中 我 
们 可 以 将 文本 文件 中 的 字段 作为 数据 类 型 或 者 时 间 戳 类 型 来 对 待 ， 也 可 以 使 用 ALTER TABLE .… 
REPLACE COLUMNS 来 进行 转换 。 文 本 文件 类 型 的 特点 如 下 表 所 示 。 


文件 类 型 格式 压缩 编码 Impala 是 否 可 直接 创建 ”Impala 是 否 可 直接 插入 


Text 非 结 构 化 LZO 是 。 使 用 CREATE | 是 。CREATE TABLE,INSERT.LOAD 
TABLE 创建 表 是 默认 的 | DATA 或 者 查询 均 可 。 如 果 使 用 了 


文件 格式 ， 各 字段 通过 | LZO 方式 压缩 必须 在 Hive 完成 创建 
ASCII 码 0x01 分 隔 〈 也 | 表 和 加 载 数据 的 过 程 
就 是 Ctrl-A) 


7.2.1 查询 性 能 


以 文本 格式 作为 存储 文件 格式 占用 的 体积 较 大 ， 而 且 不 像 Parquet 这 样 的 二 进 制 文件 格式 效 
率 高 。 如 果 我 们 接收 到 的 数据 就 是 文本 格式 的 ， 而 且 我 们 不 想 做 进一步 处 理 ， 或 者 我 们 对 其 他 的 
文件 格式 不 够 熟悉 ， 而 且 使 用 文本 格式 就 可 以 满足 应 用 的 需求 情况 下 ， 我 们 会 选择 该 格式 作为 数 
据 存储 。 另 一 方面 ， 如 果 应 用 对 性 能 要 求 很 高 ， 我 们 必须 尝试 将 文件 格式 替换 为 其 他 二 进 制 文件 
格式 。 

对 于 频繁 查询 的 数据 ， 我 们 可 以 先 将 原始 的 文本 数据 文件 加 载 到 Impala 表 中 ， 然 后 使 用 
INSERT 语句 将 存储 的 文件 格式 转换 为 其 他 的 文件 格式 。 如 果 目 标 表 定 义 为 特定 的 二 进 制 文件 格 
式 ， 在 数据 插入 的 过 程 中 转换 会 自动 进行 。 

对 于 更 紧凑 的 数据 ， 我 们 可 以 考虑 对 文本 文件 进行 LZO 压缩 。LZO 是 Impala 支持 的 对 文本 
格式 的 唯一 压缩 方式 。 由 于 LZO 数据 文件 天 然 的 可 分 割 特性 ， 我 们 可 以 将 同一 个 LZO 压缩 文件 
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的 不 同 部 分 发 送 到 不 同 节点 上 并 行 运算 。 


7.2.2 创建 文本 表 


如 果 我 们 不 清楚 像 字段 分 隔 符 之 类 的 文本 数据 文件 的 准确 格式 ， 我 们 可 以 使 用 不 带 后 续 子 句 
的 CREATE TABLE 语句 创建 表 : 


默认 情况 下 创建 的 文本 格式 的 数据 文件 可 以 接收 以 Ctrl-A 字符 〈0x01) 作为 分 隔 符 插入 的 列 
值 。 

一 种 更 通用 的 情况 是 将 已 存在 的 文本 数据 文件 导入 到 Impala 表 。 这 时 使 用 的 语法 更 为 详细 ， 
需要 指定 FIELDS TERMINATED BY 子 句 ， 而 且 前 面 必须 有 对 应 的 ROW FORMAT DELIMITED 
子 句 。 该 语句 可 以 以 STORED AS TEXTFILE 作为 结束 ， 也 可 以 不 指定 这 个 选项 ， 因 为 文本 格式 
是 Impala 默认 的 文件 格式 。 例 如 : 


如 上 示例 展示 了 我 们 可 以 将 像 CSV、TSV， 或 者 以 管道 符 分 隔 ， 这 样 具 有 特定 分 隔 符 的 文本 
文件 导入 到 Impala 表 中 。 我 们 也 可 以 对 这 些 表 使 用 INSERT .… SELECT 语法 将 数据 文件 拷贝 到 
Impala 数据 目录 中 。 

在 Impala 1.3.1 或 者 更 高 版 本 中 ， 我 们 可 以 指定 \0" 字 符 作 为 分 隔 符 : 


执行 DESCRIBE FORMATTED table_name 语句 可 以 查看 在 Impala 底层 的 更 多 详细 信息 。 
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7.2.3 ”数据 文件 


当 Impala 对 文本 表 进 行 查询 时 ， 它 会 遍历 这 个 表 对 应 的 数据 目录 中 的 所 有 数据 文件 ,但 是 会 
忽略 以 “.” 开 头 的 那些 文件 。 

通过 Impala 的 INSERT 语句 插入 数据 时 , 底层 将 自动 为 数据 文件 生成 一 个 唯一 名 称 以 避免 和 
其 他 文件 名 冲突 。 

一 个 INSERT ..…. SELECT 语句 会 为 在 该 节点 上 处 理 的 SELECT 的 数据 产生 一 个 数据 文件 ,而 
每 条 INSERT .…. VALUES 语句 将 产生 一 个 单独 的 数据 文件 。 Impala 在 对 少量 的 大 数据 文件 查询 的 
效率 更 高 ， 所 以 强烈 不 建议 使 用 INSERT .…. VALUES 的 方式 加 载 批量 数据 。 如 果 我 们 已 经 由 于 使 
用 了 INSERT ...VALUES 语句 产生 大 量 的 小 文件 而 导致 的 效率 问题 ， 我 们 必须 通过 INSERT .…. 
SELECT 的 方式 将 数据 迁移 至 另外 一 张 表 中 。 

文本 数据 文件 特殊 值 说 明 如 下 : 


(1) Impala 对 于 FLOAT 和 DOUBLE 数据 列 使 用 字符 串 inf 表示 无 穷 ， 使 用 nan 表示 不 是 
一 个 数字 。 

(2) Impala 将 字符 串 “\N” 表 示 为 NULL。 当 使 用 Sqoop 时 ， 需 要 指定 -null-non-string 和 
--null-string 确保 所 有 的 NULL 值 可 以 被 正确 处 理 。 默 认 情 况 下 ，Sqoop 使 用 字符 串 “null” 表 示 
为 一 个 NULL 值 ， 这 可 能 导致 Impala 行 转换 错误 。 对 于 已 经 存在 的 数据 文件 的 表 我 们 也 可 以 通过 
设置 表 的 属性 解决 这 个 问题 : 


7.2.4 ”加 载 数据 


为 了 将 已 经 存在 的 文件 文件 加 载 到 Impala 文本 表 中 , 我 们 可 以 使 用 LOAD DATA 语句 指定 数 
据 文 件 在 HDFS 上 的 路 径 ， 也 可 以 直接 将 文件 拷贝 到 Impala 数据 目录 中 。 

为 了 将 已 经 存在 的 多 个 数据 文件 加 载 到 Impala 文本 表 中 , 我 们 也 可 以 通过 LOAD DATA 语句 
指定 这 些 文件 所 在 的 路 径 ， 或 者 将 其 直接 拷贝 到 Impala 数据 目录 中 。 

如 果 我 们 想 把 其 他 二 进 制 格式 的 数据 文件 转换 成 文本 ， 我 们 可 以 使 用 如 下 SQL 语句 : 

创建 一 张 与 二 进 制 格式 类 似 表 结 构 的 文本 表 。 


指定 文本 表 的 字段 分 隔 符 。 


将 其 他 二 进 制 格式 表 的 数据 以 INSERT 的 方式 插入 文本 表 。 
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这 项 技术 在 我 们 想 查 看 Impala 如 何 表示 文本 格式 数据 文件 中 的 特殊 值 时 非常 有 用 。 通 过 
DESCRIBE FORMATTED 语句 ， 我 们 可 以 查看 数据 文件 存储 的 底层 HDFS 目录 , 然后 使 用 像 hdfs 
dfs -ls hdfs_directory 或 者 hdfs dfs -cat hdfs_file 可 以 查看 Impala 创建 的 文本 文件 的 内 容 。 

如 果 是 为 了 测试 的 目的 想 创建 示例 表 ， 可 以 使 用 INSERT .… VALUES 语句 创建 : 


INSERT INTO text table VALUES ('string literal',100,hex('hello world')); 


如 果 我 们 想 手动 创建 一 个 Impala 文本 表 使 用 的 文本 文件 ， 需 要 使 用 \N 来 表示 NULL 值 。 

我 们 也 可 以 手动 的 使 用 hdfs dfs -put 或 者 hdfs dfs -cp 命令 将 数据 文件 传 到 Impala 表 的 数据 目 
录 中 。 当 我 们 移动 或 者 拷贝 新 的 文件 到 Impala 表 的 数据 目录 中 后 , 必须 执行 REFRESH table_name 
命令 更 新 表 的 元 数据 信息 ， 让 Impala 可 以 识别 到 新 的 数据 文件 。 


7.2.5 LZO 压缩 


Impala 支持 对 文本 格式 的 数据 文件 使 用 LZO 压缩 Cloudera 推荐 在 生产 环境 中 对 文本 文件 进 
行 LZO 压缩 。 尤其 是 对 IO 密集 型 的 查询 ,使 用 LZO 压缩 会 大 大 减少 从 磁盘 读 取 的 数据 量 , 但 是 
同时 由 于 要 在 内 存 中 解压 数据 ， 会 对 CPU 有 额外 的 消耗 。 

Impala 支持 LZO 压缩 的 文本 文件 , 但 是 不 支持 GZIP 压缩 的 文本 文件 。 LZO 格式 压缩 的 文件 
可 以 透明 的 解压 到 不 同 的 节点 进行 分 布 式 处 理 ， 而 GZIP 格式 压缩 的 文件 不 支持 该 特性 ， 不 适合 
于 Impala 这 种 分 布 式 的 处 理 方式 。 

目前 , Impala 只 能 对 LZO 压缩 的 文本 文件 进行 查询 操作 , 如 果 要 进行 写 操作 ,必须 通过 Hive 
使 用 CREATE TABLE 并 加 载 数 据 ， 然 后 在 使 用 Impala 进行 查询 。 一 旦 我 们 创建 了 以 及 基于 LZO 
压缩 的 文本 表 , 我 们 就 可 以 手动 的 将 通过 lzop 或 者 其 他 类 似 命令 产生 的 压缩 文件 直接 放 到 Impala 


数据 目录 中 。 

1. 使 用 LZO 准备 工作 

在 Impala 中 使 用 LZO 文本 表 之 前 ， 我 们 必须 在 集群 的 每 个 节点 上 安装 必要 的 安装 包 。 安 装 
的 步骤 必须 手动 执行 : 


(1) 安装 前 准备 工作 。 

对 于 使 用 包 管 理 的 Cloudera Manager 或 者 不 被 Cloudera Manager 管理 的 系统 ， 我 们 需要 为 自 
己 的 操作 系统 下 载 匹配 的 GPL extras 的 repo 文件 : 

Red Hat 5 下 载 到 /etc/yum.repos.d/， 下 载 地 址 为 http://archive.cloudera.com/gplextras/redhat/ 
5/x86_64/gplextras/cloudera-gplextras4.repo。 

Red Hat 6 下 载 到 /etc/yum.repos.d/， 下 载 地 址 为 http://archive.cloudera.com/gplextras/redhat/ 
6/x86_64/gplextras/cloudera-gplextras4.repo。 

SUSE 下 载 到 /etc/zypp/repos.d/， 下 载 地 址 为 http://archive.cloudera.com/gplextras/sles/11/ 
X86 64/gplextras/cloudera-gplextras4.repo。 

Ubuntu 10.04 下 载 到 /etc/apt/sources.list.d/， 下 载 地 址 为 http://archive.cloudera.com/gplextras/ 
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ubuntu/lucid/amd64/gplextras/cloudera.list。 


Ubuntu 12.04 下 载 到 /etc/apt/sources.list.d/， 下 载 地 址 为 http://archive.cloudera.com/gplextras/ 
ubuntu/precise/amd64/gplextras/cloudera.list。 
Debian 下 载 到 /etc/apt/sources.list.d/， 下 载 地 址 为 http://archive.cloudera.com/gplextras/debian/ 
squeeze/amd64/gplextras/cloudera. list。 
(2) 为 Impala 配置 LZO。 
使 用 如 下 的 安装 命令 ， 让 Hadoop 支持 LZO， 让 Impala 支持 LZO。 


(3) 修改 配置 文件 。 
对 于 客户 端 和 服务 端的 core-sitexml 配置 文件 中 ， 添 加 属性 


com.hadoop.compression.lzo.LzopCodec: 


(4) 重启 MapReduce 服务 和 Impala 服务 。 
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2. 创建 LZO 文本 表 
一 张 LZO 文本 表 必 须 使 用 如 下 的 选项 通过 Hive 创建 : 


而 且 某 些 Hive 的 本 地 设置 也 需要 修改 ， 示 例如 下 : 


一 旦 我 们 创建 了 LZO 文本 表 ， 我 们 就 可 以 在 Hive 中 使 用 INSERT... SELECT 语句 将 其 转换 
为 其 他 格式 的 表 。 

在 通过 Hive 的 INSERT 插入 数据 之 后 , 我 们 需要 检查 表 对 应 的 HDFS 上 的 数据 目录 , 确保 数 
据 文件 具有 .lzo 的 扩展 名 。 如 果 我 们 之 前 的 某 些 配置 不 正确 ， 可 能 导致 存储 的 文件 没有 被 正确 的 
压缩 ， 这 时 使 用 Impala 访问 这 张 表 将 报错 ， 因 为 Impala 认为 这 是 一 张 压 缩 过 的 LZO 文本 表 。 

在 将 数据 加 载 到 LZO 压缩 表 之 后 ， 我 们 必须 为 文件 建立 索引 。 建 立 索 引 的 方式 是 使 用 Linux 
命令 行 运行 一 个 Java 类 com.hadoop.compression.lzo.DistributedLzoIndexer。 这 个 Java 类 包含 在 
hadoop-lzo 包 中 。 

下 面 运行 示例 : 


索引 文件 与 数据 文件 的 文件 名 相同 ， 但 是 扩展 名 为 .index。 如 果 数 据 文件 没有 被 索引 ，Impala 
查询 仍然 可 以 执行 ， 但 是 从 远程 DataNode 读 取 数 据 的 效率 将 非常 非常 低 。 

一 旦 我 们 创建 了 LZO 压缩 的 文本 表 ， 将 数据 加 载 进来 之 后 ,对 数据 文件 做 了 索引 ,我们 就 可 
以 通过 Impala 对 这 张 表 进行 查询 了 。 对 通过 Hive 创建 的 表 第 一 次 查询 时 ， 我 们 需要 使 用 
INVALIDATE METADATA 命令 更 新 元 数据 信息 ， 让 Impala 能 够 识别 到 这 张 新 的 表 。 


7.3 Parquet 


Jmpala 可 以 创建 ， 管 理 ， 查 询 Parquet 表 。Parquet 是 高 效 可 扩展 的 基于 列 式 存储 的 二 进 制 文 
件 格 式 。Parquet 表 尤 其 擅长 处 理 针对 表 中 的 某 列 或 者 某 几 列 进行 的 扫描 查询 。 例 如 : 我 们 对 一 张 
包含 很 多 列 的 宽 表 的 但 列 进行 像 SUMO、AVGO 等 聚集 操作 。 每 个 数据 文件 包含 某 些 行 的 集合 ， 
被 称 为 行 组 。 在 一 个 数据 文件 中 ， 存 储 是 按 列 组 织 的 ， 单 列 的 值 的 数据 类 型 相同 也 能 以 很 高 的 压 
缩 比 进行 压缩 。 对 Parquet 表 基 于 某 列 的 值 进行 的 查询 ， 都 能 使 用 最 小 的 IO 最 快 地 返回 结果 。 
Parquet 文件 类 型 的 特点 如 下 表 所 示 : 


EEE 


Parquet 结构 化 ”| Snappy，GZIP 是 。CREATE TABLE、INSERT、 
当前 默认 Snappy LOAD DATA 或 者 查询 均 可 


7.3.1 创建 Parquet 表 


如 果 要 创建 一 张 Parquet 表 ， 需 要 在 impala-shell 命令 行 中 指定 表 名 ， 列 名 ， 数 据 类 型 及 存储 
的 文件 格式 信息 ， 示 例如 下 : 


另外 ， 我 们 也 可 以 克隆 另外 一 张 Parquet 表 的 列 名 和 数据 类 型 信息 : 


在 Impala 1.4.0 或 者 更 高 版 本 中 ， 即 使 我 们 没有 Parquet 数据 文件 对 应 的 表 ， 单 从 数据 文件 本 
身 就 可 以 获得 Parquet 表 的 定义 信息 。 如 果 我 们 有 了 表 的 定义 信息 ， 我 们 就 可 以 依据 这 个 表 定 义 
创建 一 张 外 部 表 指向 Parquet 数据 文件 ， 即 可 实现 对 Parquet 数据 文件 的 访问 : 


我 们 也 可 以 使 用 Parquet 数据 文件 的 表 定 义 信息 创建 一 张 空 表 ， 然 后 我 们 再 使 用 INSERT 或 
者 LOAD DATA 的 方向 向 这 张 表 中 加 载 数据 : 
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我 们 也 可 以 创建 基于 Parquet 的 分 区 表 : 


只 要 创建 了 一 张 Parquet 表 ， 我 们 就 可 以 通过 如 下 类 似 的 命令 插入 数据 了 : 


上 述 示例 中 如 果 目 标 表 和 源 表 的 列 的 数量 或 者 列 的 名 称 不 一 致 ， 我 们 就 不 能 使 用 % 而 必须 显 
示 的 指定 列 名 。 


7.3.2 “加载 数据 


使 用 什么 样 的 技术 向 Parquet 表 中 加 载 数据 取决 于 源 数据 是 存在 Impala 表 中 , 还 是 存在 Impala 
之 外 的 裸 数据 文件 中 。 

如 果 源 数据 存在 Impala 表 中 , 只 是 表 的 文件 格式 不 是 Parquet 的 , 我 们 只 需要 使 用 NSERT .… 
SELECT 语句 将 其 转换 成 Parquet 格式 的 表 。 在 转换 的 过 程 中 ， 我们 还 可 以 进行 过 滤 、 重 新 分 区 等 
操作 。 

当 我 们 向 分 区 表 尤 其 是 Parquet 的 分 区 表 插入 数据 时 ， 在 INSERT 语句 中 使 用 合适 的 Hint 能 
够 大 大 的 降低 操作 对 资源 的 使 用 ， 提 升 性 能 。 


(1) 只 有 在 Impala 1.2.2 或 者 更 高 版 本 中 才能 使 用 这 些 Hint。 

(2) 我 们 可 以 在 使 用 INSERT 向 Parquet 分 区 表 插 入 数据 由 于 资源 限制 导致 失败 或 者 插入 效 
率 低下 时 可 以 使 用 这 些 Hint。 

(3) Hint 的 关键 字 [SHUFFLE] [NOSHUFFLE] 可 以 使 用 在 PARTITION 子 句 之 后 ，SELECT 
关键 字 之 前 。 

(4) [SHUFFLE] 这 个 Hint 会 尽 可 能 的 降低 并 发 写 入 HDFS 的 文件 的 数目 , 并 且 为 每 个 分 区 
分 配 1GB 的 内 存 作 为 缓存 使 用 。 这 降低 大 大 减少 INSERT 操作 的 资源 使 用 。 在 插入 数据 的 过 程 中 ， 
由 于 同一 分 区 的 数据 可 能 在 不 同 的 节点 上 进行 插入 操作 ， 可 能 会 引发 节点 间 的 数据 传输 。 

(5) [NOSHUFFLE] 将 选择 一 个 速度 相对 快 ， 但 是 会 产生 很 多 小 文件 的 执行 计划 。 这 样 很 可 
能 引发 超出 系统 固有 的 容量 限制 而 导致 NSERT 操作 执行 失败 。 

(6) 如 果 目 标 表 包含 源 表 的 分 区 列 ，Impala 会 自动 选择 使 用 SHUFFLE]。 如 果 源 表 没 有 列 
统计 信息 ， 则 只 有 [NOSHUFFLE] 可 以 生效 。 

(7) 如 果 源 表 既 包含 分 区 列 ， 而 且 又 包含 列 统计 信息 ，Impala 会 根据 列 统计 信息 中 列 的 非 
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重复 值 的 个 数 选择 使 用 [SHUFFLE] 还 是 [NOSHUFFLE]。 也 只 有 在 这 种 情况 下 ,我 们 可 以 使 用 Hint 
来 强制 让 Impala 选择 我 们 希望 的 执行 方式 。 


任何 针对 Parquet 表 的 INSERT 操作 都 要 确保 HDFS 上 有 足够 的 空间 可 用 。Parquet 数据 文件 
默认 的 块 大 小 为 1GB， 如 果 空 间 不 足 ， 可 能 导致 NSERT 操作 失败 。 

我 们 应 该 尽量 避免 使 用 INSERT .… VALUES 的 方式 向 Parquet 表 插 入 数据 ， 因 为 该 语句 会 产 
生 很 多 很 多 单独 的 小 文件 ， 毕 竟 Parquet 的 优势 在 于 对 1GB 大 小 的 块 进行 压缩 ， 并 行 处 理 。 

如 果 我 们 有 其 他 组 件 产生 的 Parquet 数据 文件 ， 我 们 可 以 通过 以 下 方式 快速 的 基于 这 些 数据 
文件 建立 Impala 表 用 于 查询 : 


(1) 通过 LOAD DATA 语句 将 数据 文件 移动 到 Impala 表 对 应 的 数据 目录 。 在 移动 的 过 程 中 ， 
Impala 不 会 对 文件 进行 校 验 或 者 转换 。 

(2) 使 用 带 有 LOCATION 子 句 的 CREATE TABLE 语句 指向 数据 文件 所 在 的 位 置 。 这 样 做 
的 前 提 是 数据 文件 必须 是 在 HDFS 上 ， 而 不 是 在 本 地 文件 系统 上 。 为 了 防止 数据 文件 会 被 其 他 的 
应 用 访问 、 使 用 或 者 修改 , 我 们 也 可 以 使 用 CREATE EXTERNAL TABLE 语法 通过 创建 外 部 表 的 
方式 指向 这 些 数 据 文件 。 

(3) 如 果 已 经 有 现成 的 Parquet 表 了 , 我 们 可 以 直接 把 数据 文件 拷贝 到 表 对 应 的 数据 目录 中 ， 
然后 使 用 REFRESH 语句 刷新 表 对 应 的 元 数据 信息 。 在 复制 Parquet 数据 文件 时 不 要 使 用 -put 或 
者 -cp 选项 ， 而 要 使 用 hdfs distcp -pb 命令 进行 复制 ， 这 个 命令 可 以 可 以 保证 在 复制 过 程 中 使 用 原 
始 文件 的 块 大 小 进行 复制 。 

如 果 外 部 系统 产生 的 不 是 Parquet 格式 的 文件 ， 而 是 其 他 格式 的 ， 我 们 就 要 综合 使 用 上 述 技 
术 。 首 先 ， 我 们 使 用 LOAD DATA 或 者 CREATE EXTERNAL TABLE ... LOCATION 语句 加 载 到 
与 文件 原始 格式 匹配 的 Impala 表 中 ， 然 后 使 用 INSERT .… SELECT 将 表 中 的 数据 拷贝 到 Parquet 
格式 的 表 中 。 

向 Parquet 表 中 加 载 数据 是 一 个 消耗 内 存 的 操作 , 因为 只 要 当 加 载 的 数据 在 内 存 中 缓存 了 1GB 
之 后 ， 这 些 数据 被 重组 也 压缩 之 后 才 会 写 到 HDFS 上 。 而 如 果 是 向 Parquet 分 区 表 中 写 入 数据 ， 
每 个 分 区 键 值 组 合 就 会 生成 一 个 单独 的 数据 文件 ， 同 时 也 就 需要 多 个 1GB 的 内 存 写 缓冲 区 。 

当 我 们 向 Parquet 表 插 入 数据 时 ，Impala 会 在 节点 间 重 新 分 布 数据 以 减少 内 存 消 耗 。 即 使 这 
样 在 加 载 数据 时 我 们 可 能 仍然 需要 临时 增加 Impala 可 以 独占 的 内 存 大 小 。 如 果 无 法 增加 Impala 
独占 的 内 存 大 小 ， 我 们 也 可 以 把 加 载 操作 拆 分 成 多 个 INSERT 语句 进行 插入 。 


7.3.3 查询 性 能 


Parquet 表 的 查询 性 能 依赖 于 我 们 需要 SELECT 的 列 的 数目 ，WHERE 条 件 的 区 分 度 等 。 如 下 
示例 中 的 查询 就 是 一 个 高 效 的 查询 语句 : 


select avg(income) from census data where state = 'CA'; 


这 个 查询 只 涉及 了 两 个 列 的 数据 ， 而 其 中 表 是 按 state 列 做 的 分 区 。 所 以 我 们 在 读 取 数 据 时 不 
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会 读 取 其 他 的 state 的 数据 ， 而 在 state='CA' 的 数据 中 只 取 其 中 的 income 列 进行 计算 就 可 以 了 ， 大 
大 减少 了 需要 读 取 和 计算 的 数据 量 。 
同样 的 道理 ， 下 面 的 这 个 查询 语句 效率 就 会 非常 低下 : 


select * from census data; 


Impala 需要 读 取 所 有 的 数据 文件 ， 为 表 中 每 一 列 的 每 一 个 行 组 进行 解压 ， 这 个 查询 没有 从 面 
向 列 式 的 存储 方式 中 获得 任何 好 处 。 虽 然 它 没有 发 挥 任何 Parquet 数据 文件 的 优势 ， 但 是 它 可 能 
仍然 比 某 些 文件 存储 格式 要 快 。 

当 Parquet 表 搜集 过 统计 信息 之 后 ，Impala 可 以 针对 Parquet 表 进 行 优化 操作 ， 尤 其 是 可 以 进 
行 关联 查询 的 优化 操作 。 


Parquet 表 分 区 


Parquet 表 非 常 适合 于 那些 表 本 身 包 含 很 多 列 ， 但 是 仅 对 很 少 的 一 些 列 进行 的 查询 。 当 对 
Parquet 进行 了 分 区 之 后 ， 性 能 会 得 到 进一步 的 提升 。Impala 会 忽略 WHERE 条 件 中 没有 的 分 区 ， 
仅 对 指定 的 分 区 进行 数据 文件 读 取 操作 。 

想 Parquet 分 区 表 中 插入 数据 是 一 个 特别 消耗 资源 的 操作 ， 因 为 每 个 Impala 节点 都 可 能 为 一 
种 分 区 键 值 的 组 合 写 入 一 个 单独 的 数据 文件 。 在 HDFS 上 同时 打开 的 文件 数 收 参数 
“transceivers” 的 限制 。 为 了 避免 超出 这 个 限制 ， 考 虑 使 用 如 下 技术 : 


(1) 使 用 不 同 的 INSERT 语句 加 载 特定 的 分 区 ， 比 如 指定 PARTITION (year=2010)。 

(2 ) 增 加 参数 “transceiver” 的 值 ,在 有 的 版 本 也 拼 成 “xceivers ”为 HDFS 配置 文件 hdfs-site.xml 
中 的 dfs.datanode.max.transfer.threads 配置 一 个 合适 的 值 。 比 如 ， 如 果 我 们 要 想 一 个 按照 年 、 月 、 
日 分 区 的 表 中 加 载 12 年 的 数据 ， 使 用 4096 都 不 算 大 。 

(3 ) 在 从 源 表 找 贝 数据 之 前 对 表 使 用 COMPUTE STATS 搜集 统计 信息 ,这样 做 是 希望 Impala 
能 够 通过 统计 信息 生成 一 个 更 有 效 的 执行 计划 。 


7.3.4 ”Snappy/Gzip 压缩 


当 我 们 使 用 INSERT 向 Parquet 表 插 入 数据 时 ， 可 以 通过 参数 
PARQUET_ COMPRESSION_CODEC 控制 压缩 的 方式 。 这 个 参数 允许 的 值 有 snappy (该 值 为 默认 
值 )，gzip 和 none。 这 个 参数 的 值 可 以 使 用 大 写 或 者 小 写 。 如 果 这 个 参数 使 用 了 一 个 Impala 无 法 
识别 的 值 ， 所 有 的 Impala 查询 都 会 报错 。 


1. Snappy 压缩 示例 


默认 情况 下 ,Parquet 表 使 用 Snappy 压缩 。 它 对 大 批量 数据 的 压缩 和 解压 的 速度 是 相当 快 的 。 
为 了 使 用 Snappy 压缩 ， 需 要 在 插入 数据 之 前 设置 PARQUET_COMPRESSION_CODEC 参数 : 


[hadoop-cs1:21000] > create database parquet compression; 
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2. Gzip 压缩 示例 


如 果 我 们 想 拥 有 更 高 的 压缩 比 ， 可 以 使 用 Gzip 压缩 , 但 是 它 在 压缩 和 解压 时 也 会 消耗 更 多 的 
CPU 资源 。 与 Snappy 压缩 类 似 ， 我 们 也 需要 设置 PARQUET_COMPRESSION_CODEC 参数 : 


3. 不 压缩 示例 


如 果 我 们 的 数据 量 不 大 ， 或 者 想 避 免 压 缩 和 解压 时 的 CPU 负载 ， 我 们 可 以 将 
PARQUET_ COMPRESSION_CODEC 参数 设置 为 none， 不 使 用 任何 压缩 方式 : 


4. Parquet 压缩 对 比 测试 示例 


这 个 示例 中 我 们 使 用 人 造 的 数据 使 用 Snappy，Gzip 和 none 三 种 参数 的 情况 下 的 数据 压缩 和 
查询 速度 的 对 比 。 而 我 们 在 测试 时 最 好 使 用 生产 环境 中 的 真实 数据 进行 对 比 测试 ， 数 据 的 压缩 比 
和 查询 速度 在 很 大 程度 上 依赖 于 数据 本 身 的 特点 。 

数据 压缩 情况 对 比如 下 : 


通过 上 述 数据 我 们 可 以 看 到 数据 从 不 压缩 到 Snappy 压缩 ， 大约 节 省 了 三 分 之 一 的 空间 而 从 
Snappy 到 Gzip 压缩 ， 大 约 节省 了 二 分 之 一 的 空间 。 

由 于 Parquet 数据 文件 通常 都 是 1GB 大 小 ， 每 个 目录 中 的 数据 文件 的 个 数 也 会 对 空间 占用 有 
一 定 影响 。 

压缩 比 和 效率 就 像 是 天 平 的 两 端 ， 压 缩 比 越 高 ， 压 缩 和 解压 的 时 间 越 长 ， 不 做 压缩 占用 的 空 
间 最 大 ， 但 是 不 会 消耗 压缩 解压 的 时 间 。 

对 某 列 做 聚集 查询 的 时 间 对 比如 下 : 
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可 以 看 到 不 压缩 运行 速度 最 快 ， 而 使 用 压缩 时 Snappy 比 Gzip 压缩 更 快 。 
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5. 拷贝 Parquet 数据 文件 示例 


该 示例 演示 如 何 对 使 用 了 不 同 压缩 方式 的 文件 进行 读 取 操 作 。 示 例 中 我 们 将 前 面 示例 中 的 
PARQUET_SNAPPY、PARQUET_GZIP 和 PARQUET _ NONE 三 张 表 的 数据 文件 拷贝 到 一 个 新 的 
Impala 表 PARQUET_EVERYTHING 对 应 的 数据 目录 中 。 这 三 张 表 每 张 表 有 10 亿 条 记录 ， 我 们 
最 终 的 新 表 可 以 对 拷贝 过 来 的 不 同 压 缩 方式 的 文件 进行 读 取 ， 最 终 查 询 出 30 亿 条 记录 。 

首先 ， 我 们 创建 一 张 空 表 : 


表 创 建 完毕 之 后 ，Impala 就 在 HDFS 上 建立 了 相应 的 数据 目录 。 我 们 将 之 前 三 张 表 的 数据 文 
件 拷贝 到 该 数据 目录 中 : 


在 impala-shell 中 ， 我 们 使 用 REFRESH 操作 刷新 新 表 的 元 数据 信息 ， 然 后 就 可 以 对 这 张 表 进 
行 读 取 操 作 了 : 


259 


开源 大 数据 分 析 引 擎 Impala 实战 


7.3.5 与 其 他 组 件 交 换 Parquet 数据 文件 


自 CDH 4.5 起 ， 我 们 就 可 以 通过 Hive，Pig 或 者 MapReduce 读 写 Parquet 数据 文件 了 。 在 早 
期 版 本 中 ， 我 们 不 能 通过 Impala 创建 Parquet 数据 文件 ， 只 能 通过 Hive 来 创建 。 在 Impala 1.1.1 
或 者 更 高 版 本 中 ， 我 们 可 以 通过 如 下 命令 修改 表 对 应 的 数据 文件 格式 : 


如 果 我 们 使 用 的 Impala 版 本 低 于 1.1.1， 我 们 需要 在 Hive 中 使 用 如 下 命令 来 设置 表 对 应 的 数 
据 文件 格式 : 


对 于 Parquet 表 ，Impala 支持 标量 数据 类 型 ， 但 是 不 支持 向 Map、Array 这 样 的 组 合 类 型 和 内 
撕 类 型 。 如 果 Parquet 表 的 列 使 用 了 不 支持 的 数据 类 型 ，Impala 就 不 能 正确 的 访问 这 张 表 。 

如 果 需 要 拷贝 Parquet 数据 文件 , 一 定 要 使 用 hadoop distcp -pb 命令 保证 拷贝 过 程 中 保持 原始 
数据 块 的 大 小 。 另 外 可 以 使 用 命令 hdfs fsck -blocks HDFS_path_of impala_table_dir 检查 目标 文件 
是 否 保持 了 原始 文件 的 块 大 小 。 


7.3.6 ”Parquet 数据 文件 组 织 方式 


虽然 Parquet 数据 文件 是 面向 列 存储 的 ， 但 是 也 不 是 一 个 列 一 个 数据 文件 。Parquet 将 一 行 所 
有 字段 都 存在 同一 个 数据 文件 中 。 一 个 Parquet 数据 文件 的 最 大 大 小 是 1GB， 我 们 要 确保 IO 和 网 
络 传输 的 参数 与 这 个 大 小 想 匹 配 。 

在 这 1GB 的 数据 文件 内 , 所 有 的 行 被 重新 组 织 ， 所 有 行 的 第 一 列 的 值 相 邻 存放 ， 然 后 是 第 二 
列 ， 第 三 列 ， 以 此 类 推 。 把 同一 列 的 值 集中 存放 ， 因 为 数据 类 型 都 是 一 样 的 ， 所 以 也 使 针对 单列 
的 压缩 更 有 效率 。 

当 Impala 需要 读 取 某 列 数据 时 , 只 需要 打开 数据 文件 只 读 取 被 连续 存放 在 一 起 的 该 列 相关 的 
数据 就 可 以 了 。 如 果 查 询 中 或 者 WHERE 条 件 中 还 出 现 了 其 他 列 ， 这 些 不 同 的 列 也 可 以 在 同一 个 
数据 文件 中 找到 。 
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如 果 INSERT 插入 的 数据 没有 1GB， 那 么 最 终 的 数据 文件 可 能 会 小 一 些 。 如 果 我 们 要 使 用 多 
个 ETL 作业 来 进行 INSERT 操作 ， 需 要 尽量 保证 数据 量 是 1GB 左右 ， 或 者 是 1GB 的 倍数 。 


1. RLE 和 数据 字典 编码 


基于 生产 环境 的 真实 数据 值 ，Parquet 自动 采用 向 游程 编码 (RLE) 或 者 数据 字典 编码 方式 对 
数据 进行 自动 压缩 。 在 数据 以 上 述 的 技术 对 值 进行 相对 紧凑 的 编码 之 后 ， 我 们 还 可 以 进一步 使 用 
压缩 算法 对 其 进行 压缩 。Parquet 支持 三 种 方式 : Snappy、Gzip 和 无 压缩 。 虽 然 Parquet 文件 的 规 
范 也 支持 LZO 压缩 ， 但 是 目前 Impala 的 Parquet 文件 还 不 支持 该 压缩 算法 。 

Impala 对 Parquet 文件 中 的 数据 值 使 用 游程 编码 (RLE) 或 者 数据 字典 编码 进行 压缩 编码 ， 对 
整个 Parquet 数据 文件 本 身 使 用 Snappy 或 者 Gzip 进行 压缩 。 无 论 是 对 数据 值 进行 那 种 编码 , 还 是 
对 数据 文件 进行 压缩 都 是 Impala 自动 进行 的 ， 这 大 大 节省 了 时 间 。 比 如 ， 数 据 字典 编码 会 对 重复 
出 现 的 长 字符 串 ， 后 续 的 长 字符 串 仅 会 存储 指向 第 一 个 字符 串 的 指针 而 非 存储 字符 串 本 身 ， 以 节 
省 存储 空间 。 使 用 数据 字典 编码 时 ， 一 定 要 保证 编码 的 列 的 非 重 复 值 不 得 超过 16384。 而 游程 编 
码 (RLE) 着 重 处 理 连续 的 重复 值 序列 ， 如 果 一 个 值 连续 多 行 出 现 ， 那 么 使 用 游程 编码 (RLE) 
可 以 将 其 缩写 为 值 和 连续 出 现 的 次 数 。 

2. 压缩 数据 文件 

如 果 我 们 重用 已 有 的 表 结 构 或 者 针对 Parquet 表 的 ETL 过 程 ， 我 们 可 能 会 遇 到 有 很 多 小 的 数 
据 文件 的 情况 ， 这 将 大 大 降低 查询 的 效率 。 以 下 两 种 情况 可 能 产生 此 种 情况 : 

(1) 源 数 据 数据 量 过 小 

在 N 个 节点 的 集群 中 ，INSERT 语句 在 每 个 节点 都 会 产生 一 个 数据 文件 ， 比 如 我 们 源 表 的 数 
据 量 有 1GB， 我 们 有 10 个 数据 节点 ， 那 么 平均 到 每 个 节点 上 的 数据 量 就 只 有 100M， 这 些 数 据 再 
经 过 Parquet 的 压缩 ， 就 变 成 了 我 们 所 说 的 小 文件 。 
insert into parquet table select * fr text table 


(2) 单个 分 区 包含 的 数据 量 过 小 
虽然 源 数据 的 数据 量 非常 庞大 ， 但 是 经 过 分 区 之 后 的 单个 分 区 包含 的 数据 量 过 小 。 


able partition ( onth，day) 


我 们 有 以 下 技术 可 以 在 NSERT 操作 时 产生 大 文件 ， 或 者 合并 已 存在 的 小 文件 : 


(1) 当 我 们 向 Parquet 分 区 表 插 入 数据 时 ， 使 用 将 分 区 键 值 指定 为 常量 的 静态 分 区 ， 为 每 个 
分 区 使 用 一 个 单独 的 INSERT 语句 。 

(2) 我 们 可 以 在 INSERT 或 者 CREATE TABLE AS SELECT 语句 时 ， 将 参数 NUM_NODES 
指定 为 1。 默认 情况 下 ，CREATE TABLE AS SELECT 或 者 INSERT 语句 在 每 个 节点 可 以 产生 一 
个 或 者 多 个 数据 文件 。 如 果 要 写 的 数据 的 数据 量 不 大 ， 那 么 势必 会 产生 很 多 小 文件 。 将 参数 
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NUM_NODES 设置 为 1 可 以 关闭 写 操作 的 分 布 式 特性 , 这 样 写 操作 相当 于 在 单个 节点 上 执行 , 只 
会 产生 少量 的 大 文件 。 
(3) 减少 分 区 列 的 数目 ， 这 样 就 相当 于 增 大 了 单个 分 区 的 数据 量 。 
(4) 不 要 指望 Impala 在 写 时 会 把 数据 填 满 一 个 Parquet 数据 块 。 在 插入 时 ，Impala 会 保守 估 
计 每 个 Parquet 文件 将 要 写 入 的 数据 量 。 另 外 ， 通 常 在 内 存 中 1GB 的 未 压缩 数据 ， 经 过 编码 和 压 
缩 之 后 到 磁盘 上 可 能 要 小 得 多 ， 可 能 要 就 几 百 兆 。 最 终 数 据 的 多 少 要 依赖 于 数据 本 身 的 特点 。 因 
此 ， 如 果 1GB 的 文件 被 拆 分 写 到 了 两 个 Parquet 文件 中 ， 是 正常 现象 。 
(5) 如 果 我 们 已 经 产生 了 很 多 小 的 数据 文件 的 情况 , 我 们 可 以 根据 前 面 几 点 提 到 的 技术 通过 
CREATE TABLE AS SELECT 或 者 INSERT 等 将 数据 插入 一 张 新 的 表 。 
如 何 避 免 因 为 要 修改 表 的 名 称 而 需要 将 数据 重新 拷贝 写 到 一 张 新 的 表 ? 那 就 是 使 用 视图 技 
术 。 通 过 改变 视图 定义 可 以 让 我 们 方便 的 改变 视图 指向 的 基 表 。 
最 开始 时 我 们 创建 的 视图 基于 有 很 多 小 文件 的 表 : 


create view production table as select * from table with many small files; 


我 们 经 过 上 述 的 技术 将 小 文件 合并 之 后 产生 了 新 的 表 。 我 们 将 视图 指向 新 的 表 : 


alter view production table as select * from table with few big files; 


那么 原 有 的 SQL 语句 不 需要 任何 变化 就 可 以 进行 查询 了 : 


select * from Production table where cl = 100 and c2 < 50 and ...; 


3. 模式 进化 


这 里 的 模式 进化 指 的 是 使 用 ALTER TABLE ... REPLACE COLUMNS 来 改变 Parquet 表 的 数 

据 类 型 、 列 数 等 。 我 们 可 以 执行 的 变更 包括 如 下 几 种 : 

(1) Impala 中 的 ALTER TABLE 语句 从 来 不 会 改变 表 对 应 的 数据 文件 本 身 。 从 Impala 的 视 
角 来 看 ， 模 式 进化 就 是 使 用 新 的 表 的 对 应 来 解释 同一 个 数据 文件 而 已 。 比 如 : 某 些 列 的 数据 类 型 
的 变化 可 能 更 符合 应 用 的 真实 意义 。 而 如 果 在 新 的 表 的 定义 中 使 用 了 数据 文件 中 无 法 正常 转换 的 
类 型 ， 查 询 将 会 报错 。 

(2) INSERT 语句 总 是 依据 最 新 的 表 定 义 进行 插入 操作 。 如 果 我 们 在 INSERT 的 过 程 中 改变 
列 的 定义 可 能 会 导致 底层 数据 的 存储 依据 了 不 同 的 表 定 义 。 

(3) 如 果 我 们 通过 ALTER TABLE ... REPLACE COLUMNS 为 表 定 义 了 数据 文件 中 没有 的 
列 ， 那 么 在 查询 中 ， 新 的 列 的 值 都 为 NULL。 

(4) 如 果 我 们 通过 ALTER TABLE ... REPLACE COLUMNS 为 表 定义 的 列 没 有 数据 文件 中 
的 列 多 ， 那 么 在 查询 中 ， 将 会 自动 忽略 数据 文件 中 多 余 的 列 的 值 。 

(5) Parquet 使 用 32 位 的 整 型 值 来 存储 TINYINT、SMALLINT、INT 类 型 的 值 。 


这 意味 着 我 们 很 容易 进行 TINYINT、SMALLINT、INT 各 类 型 之 间 进 行 转换 ， 因 为 在 底层 数 
据 的 存储 中 是 相同 的 。 
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如 果 我 们 试图 将 一 个 范围 大 的 类 型 强制 转换 为 一 个 范围 小 的 类 型 ， 仍 然 可 能 产生 溢出 错误 。 

我 们 不 能 将 TINYINT、SMALLINT、INT 转换 为 BIGINT。 即 使 执行 ALTER TABLE 时 可 以 
成 功 ， 但 是 在 真正 查询 时 仍然 会 报错 。 

同样 的 , 任何 其 他 类 型 的 转换 都 可 能 引起 查询 时 的 转换 错误 。 比 如 : 将 INT 转换 为 STRING， 
FLOAT 转换 为 DOUBLE，TIMESTAMP 转换 为 STRING，DECIMAL(9，0) 转 换 为 DECIMAL(5， 
2) 等 。 


7.4 Avro 


Impala 支持 表 使 用 Avro 文件 格式 的 数据 文件 。 在 Impala 1.4.0 或 者 更 高 的 版 本 ， 可 以 直接 创 
建 Avro 表 但 是 如 果 使 用 的 是 之 前 的 版 本 我 们 必须 通过 Hive 来 完成 创建 表 和 插入 数据 的 操作 。 
Avro 文件 类 型 的 特点 如 下 表 所 示 : 


结构 化 es GZIP, deflate 是 。 在 Impala 1.4.0 或 者 | 否 。 通过 LOAD DATA 加 
更 高 版 本 可 以 ， 但 是 在 | 载 已 经 具有 正确 格式 的 文 
低 版 本 中 必须 通过 Hive | 件 ， 或 者 通过 Hive 使 用 
创建 INSERT 的 方式 加 载 


7.4.1 创建 Avro 表 


为 了 创建 Avro 表 , 我 们 需要 在 Impala 或 者 Hive 中 执行 带 有 STORED AS AVRO 子 句 的 语句 。 
如 果 使 用 Impala, 我 们 必须 在 语句 中 指定 列 定义 信息 。 如果 使 用 Hive, 我 们 可 以 忽略 列 定义 信息 。 

如 下 示例 我 们 使 用 了 两 种 方式 来 定义 Avro 表 一 种 是 将 JSON 内 嵌 到 语句 中 一 种 是 将 JSON 
存放 在 HDFS 上 。 
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如 下 示例 是 在 Hive 中 创建 Avro 表 的 示例 : 
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其 中 每 个 字段 对 应 表 的 一 个 列 。 
大 多 数 的 列 类 型 可 以 通过 Avro 向 Impala 直接 映射 ， 但 是 也 有 特殊 情况 : 
(1) 在 Avro 中 DECIMAL 是 一 个 有 logicalType 属性 的 BYTE 类 型 ， 我 们 可 以 为 其 指定 精度 
和 位 数 。 只 有 在 CDH5 的 Avro 表 中 可 以 使 用 DECIMAL 类 型 。 
(2) 在 Avro 中 的 long 类 型 与 Impala 中 的 BIGINT 相对 应 。 


如 果 我 们 在 Hive 中 创建 了 一 张 Avro 表 ， 则 必须 在 impala-shell 中 使 用 INVALIDATE 
METADATA table name 来 更 新 Impala 的 元 数据 信息 。 当 我 们 连接 到 任何 一 个 Impala 节点 时 ， 
catalog 服务 会 将 元 数据 信息 广播 到 其 他 Impala 节点 。 另 外 ， 如 果 通 过 Hive 进行 了 LOAD DATA 
或 者 INSERT 等 操作 ， 或 者 手动 将 数据 文件 拷贝 到 了 Avro 表 的 数据 目录 ， 我 们 都 需要 通过 
REFRESH table_name 语句 刷新 元 数据 信息 。 

如 果 我 们 有 现成 的 Avro 文件 ， 我 们 可 以 在 Impala 或 者 Hive 中 使 用 LOAD DATA 加 载 数 据 。 


7.4.2 使 用 Hive 创建 的 Avro 表 


如 果 我 们 想 在 Impala 中 使 用 通过 Hive 创建 的 Avro 表 那么 表 的 数据 类 型 必须 与 Impala 兼容 
这 些 数据 类 型 不 包括 : 


(1) 复杂 类 型 arrayy、map、record、struct， 除 [supported_type,null] 或 者 [null,supported_type] 
之 外 的 union 类 型 。 

(2) 像 enum、bytes、fixed 等 Avro 特有 的 类 型 。 

(3) 任何 在 数据 类 型 部 分 介绍 过 之 外 的 标量 数据 类 型 。 


Impala 只 支持 BOOLEAN、INT、LONG、FLOAT、DOUBLE、STRING 类 型 ， 或 者 这 些 类 
型 和 NULL 的 UNION 类 型 ， 如 [*'string”,*null”]。 


7.4.3 通过 JSON 指定 Avro 模式 


我 们 可 以 将 JSON 形式 的 列 定义 内 嵌 到 CREATE TABLE 语句 中 。 但 是 如 果 指 定 的 长 度 如 果 
超过 了 Hive 元 数据 中 列 宽度 的 限制 ， 将 无 法 创建 成 功 。 如 果 要 解决 这 个 问题 ， 我 们 可 以 将 JSON 
文件 存放 到 HDFS 上 ， 并 在 定义 表 属 性 时 指向 该 文件 : 


tblproperties ('avro.schema.url'='hdfs//your-name-node:port/path/to/schema.json'); 


7.4.4 ”启用 压缩 
如 果 需 要 对 Avro 数据 文件 进行 压缩 ， 需 要 在 Hive shell 中 指定 相关 参数 : 


hive> set hive.exec.compress.output=true; 
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7.4.5 “模式 进化 


自 Impala 1.1 起 ， 我 们 可 以 对 Avro 数据 文件 进行 模式 进化 。 针 对 同一 张 表 的 数据 文件 ， 可 以 
使 用 略微 不 同 的 数据 定义 。 这 样 做 的 前 提 是 老 的 数据 类 型 和 新 的 数据 类 型 必须 兼容 ， 比 如 我 们 可 
以 把 定义 为 INT 的 列 修改 为 BIGINT 或 者 FLOAT。 

当 Avro 数据 文件 或 者 数据 列 没有 被 查询 使 用 到 时 ，Impala 不 会 检查 其 一 致 性 。 比 如 ,执行 查 
询 SELECT cl，c2 FROM t1， 如 果 3 列 存在 不 兼容 的 情况 ， 该 语句 不 会 报错 。 针 对 分 区 表 也 是 类 
似 的 ，Impala 不 会 检查 没有 使 用 到 的 分 区 的 数据 文件 不 兼容 的 情况 。 

在 Hive DDL 语句 中 ， 我 们 可 以 指定 表 的 avro.schema.literal 属性 〈 当 表 的 定义 很 短 时 使 用 
和 avro.schema.url 属性 〈 当 表 的 定义 很 长 ， 将 JSON 文件 放 到 HDFS 上 , 通过 URL 引用 该 文件 的 
位 置 )。 

如 下 示例 使 用 Avro 格式 创建 表 ， 并 插入 数据 : 


Avro 表 有 了 数据 之 后 ， 我 们 就 可 以 通过 impala-shell 进行 查询 : 
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在 Hive shell 中 更 改 列 数据 类 型 并 添加 一 个 有 默认 值 的 新 列 ; 


在 impala-shell 中 我 们 可 以 查询 表 最 新 的 定义 。 因 为 表 定义 是 在 Impala 之 外 进行 更 改 的 ， 所 
以 需要 更 新 表 的 元 数据 信息 ， 让 Impala 能 够 识别 到 最 新 的 表 定义 变更 : 
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7.5 RcFile 


Impala 支持 使 用 RCFile 格式 的 数据 文件 ， 其 特点 如 下 表 所 示 。 


文件 类 型 ” 格式 压缩 编码 Impala 是 否 可 直接 创建 Impala 是 否 可 直接 插入 


RCFile 结构 化 | Snappy，GZIP，deflate， | 是 否 。 通 过 LOAD DATA 加 
BZIP2 载 已 经 具有 正确 格式 的 文 
件 ， 或 者 通过 Hive 使 用 

INSERT 的 方式 加 载 


7.5.1 创建 RCFile 表 和 加 载 数据 


如 果 我 们 已 经 在 Impala 之 外 生成 了 RCFile 数据 文件 ,那么 首先 我 们 应 该 创建 一 张 支持 RCFile 
格式 的 表 ， 在 impala-shell 中 使 用 命令 : 


因为 创建 表 之 后 ， 目 前 Impala 不 能 向 其 中 写 入 数据 。 所 以 加 载 数据 的 过 程 需 要 通过 Hive 或 
者 Impala 之 外 的 机 制 完 成 ， 然 后 在 通过 REFRESH table_name 语句 刷新 Impala 的 元 数据 信息 ， 再 
通过 Impala 对 其 进行 查询 。 

如 下 示例 演示 了 如 何在 Impala 中 创建 RCFile 表 ， 通 过 Hive 加 载 数据 ， 并 通过 Impala 进行 查 
询 的 过 程 : 
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7.5.2 ”启用 压缩 


我 们 可 以 对 一 个 RCFile 表 进 行 压缩 。 启 用 压缩 在 大 多 数 情况 下 可 以 带 来 性 能 提升 。 如 下 示例 
演示 了 如 何 启用 Snappy 压缩 : 


如 果 要 对 分 区 表 使 用 压缩 ， 我 们 还 需要 设置 额外 的 参数 : 


将 两 个 过 程 综合 考虑 ， 对 普通 表 的 设置 过 程 如 下 : 
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将 两 个 过 程 综合 考虑 ， 对 分 区 表 的 设置 过 程 如 下 : 


7.6 SequenceFile 


Impala 支持 使 用 SequenceFile 格式 的 数据 文件 ， 其 特点 如 下 表 所 示 。 
文件 类 型 格式 压缩 编码 lmpala Impala 是 否 可 直接 插入 
是 否 可 直 
接 创建 


SequenceFile | 结构 化 | Snappy，GZIP， 否 。 通 过 LOAD DATA 加 载 已 经 具有 正确 格式 的 
deflate, BZIP2 文件 ， 或 者 通过 Hive 使 用 INSERT 的 方式 加 载 


7.6.1 创建 和 加 载 数据 
在 impala-shell 中 创建 SequenceFile 表 ， 创 建 示 例如 下 : 


虽然 可 以 在 Impala 中 创建 SequenceFile 数据 文件 格式 的 表 ， 但 是 却 无 法 在 Impala 中 插入 数 
据 。 我 们 还 需要 通过 Hive shell 向 该 表 中 加 载 数据 ， 然 后 再 使 用 REFRESH table name 刷新 Impala 
元 数据 信息 ， 在 通过 Impala 对 其 进行 查询 。 

如 下 示例 演示 了 如 何在 Impala 中 创建 表 ， 在 Hive 中 插入 数据 ， 并 通过 Impala 进行 查询 的 过 
程 : 
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7.6.2 ”启用 压缩 


我 们 可 以 对 SequenceFile 表 启 用 压缩 。 在 大 多 数 情况 下 ， 启 用 压缩 会 带 来 性 能 提升 。 对 
SequenceFile 启用 压缩 的 过 程 与 RCFile 表 类 似 ， 对 于 普通 表 压缩 的 过 程 
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对 于 分 区 表 ， 压 缩 的 过 程 : 


7.7 HBase 


Impala 支持 以 通用 的 SQL 语句 的 方式 对 HBase 表 进 行 查 询 ，HFile 文件 类 型 的 特点 如 下 : 


文件 类 型 格式 压缩 编码 Impala 是 否 可 直 lmpala 是 否 可 直接 插入 
接 创建 


HFile (HBase 否 。 必 须 通 过 | 是 。 支持 INSERT 操作 
Hive 创建 


默认 的 Impala 表 使 用 存储 在 HDFS 上 的 数据 文件 这样 的 表 对 于 批量 数据 加 载 ， 对 表 进 行 全 
表 扫 描 的 查询 非常 有 优势 。 而 HBase 表 对 基于 键 值 的 单行 查询 或 者 范围 查询 支持 得 更 好 ， 非 常 适 
合用 于 OLTP 系统 。Impala 表 可 以 将 HBase 表 作为 其 底层 存储 使 用 ， 大 大 扩展 了 其 使 用 的 范围 。 

从 Impala 的 视角 来 看 ，HBase 是 一 个 值 包含 了 很 多 字段 的 一 个 键 值 对 存储 系统 。 其 中 的 键 映 
射 到 Impala 表 的 一 个 列 ， 而 其 中 的 值 映射 到 Impala 表 的 其 他 列 。 

当 我 们 使 用 基于 HBase 的 Impala 表 时 : 


(1) 在 Impala 侧 创建 表 时 可 以 通过 Hive shell 来 创建 ， 因 为 目前 Impala 的 CREATE TABLE 
语句 的 很 多 语法 并 不 支持 。 


ee 我 们 需要 使 用 Hive 的 创建 表 的 CREATE TABLE 语句 的 STORED BY 
'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 子 名 来 创建 基于 HBase 的 表 。 

ee 我 们 可 以 使 用 Hive 的 创建 表 CREATE TABLE 语句 的 
TBLPROPERTIES("hbase.table.name”= "table_name_in_hbase") 来 指向 一 个 已 经 存在 的 
HBase 表 。 
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(2) 我 们 可 以 使 用 #string 关键 字 将 HBase 行 健 作为 字符 串 来 定义 或 者 映射 到 一 个 STRING 
列 。 

(3) 因为 Impala 和 Hive 共享 同一 个 元 数据 库 ， 所 以 只 要 我 们 通过 Hive 创建 了 表 ， 就 可 以 
通过 Impala 来 进行 查询 或 者 插入 操作 (在 Hive 中 创建 了 表 后 ， 需 要 在 impala-shell 中 执行 
INVALIDATE METADATA 语句 让 Impala 可 以 识别 到 新 的 表 )。 

(4) 在 对 表 进行 查询 时 最 好 指定 与 HBase 行 键 对 应 的 列 的 过 滤 条 件 ， 而 避免 使 用 全 表 扫 描 。 
对 普通 Impala 使 用 全 表 扫描 是 可 以 的 ， 但 是 对 基于 HBase 的 Impala 表 进 行 全 表 扫 描 是 一 个 非常 
低 效 的 操作 。 


7.7.1 支持 的 HBase 列 类 型 


HBase 以 一 种 称 为 “bit bucket” 的 方式 工作 ， 在 这 个 意义 上 说 ，HBase 不 会 对 键 或 者 值 做 任 
何 转换 和 处 理 ， 所 有 的 关于 数据 类 型 的 处 理 都 是 在 Impala 侧 进行 的 。 

从 性 能 上 考虑 ， 对 基于 HBase 的 Impala 表 的 查询 需要 指定 和 HBase 行 键 相关 的 WHERE 条 
件 。 当 我 们 通过 Hive 创建 表 时 使 用 STRING 类 型 映射 了 HBase 的 行 键 ， 那 么 Impala 就 能 通过 谓 
词 推进 的 方式 将 针对 映射 列 的 =、<、BETWEEN、IN 查询 翻译 成 针对 HBase 表 行 键 的 条 件 查询 ， 
而 我 们 知道 在 HBase 中 针对 行 键 的 查询 效率 是 极 高 的 。 需 要 注意 的 是 ， 这 种 谓词 推进 的 优化 只 有 
在 映射 列 被 定义 为 STRING 时 才 有 效 。 

自 Impala 1.1 起 ，Impala 也 支持 读 写 在 Hive 使 用 #binary 关键 字 创 建 的 数据 类 型 。 在 HBase 
中 ， 我 们 也 经 常 使 用 二 进 制 类 型 代替 数字 类 型 来 减少 存储 的 数据 量 。 即 使 这 样 ， 我 们 仍然 强烈 建 
议 将 HBase 的 行 键 定义 为 STRING 类型， 以便 能 够 在 Impala 中 对 HBase 表 进 行 快速 查询 。 


7.7.2 ”性 能 问题 


Impala 通过 JNI(Java Native Interface) 使 用 HBase 客户 端 API 查询 存储 在 HBase 中 的 数据 。 
Impala 查询 不 会 直接 读 取 HBase 数据 文件 。Impala 查询 基于 HBase 的 表 需 要 额外 的 通信 负载。 对 
于 一 张 Impala 表 ， 我 们 选择 使 用 HDFS 作为 存储 还 是 使 用 HBase 作为 存储 ， 是 需要 慎重 考虑 的 。 
对 于 基于 HBase 的 Impala 表 ， 为 了 构造 一 个 基于 HBase 的 高 效 的 查询 SQL， 我 们 需要 : 


(1) 使 用 HBase 表 的 查询 需要 返回 单行 或 者 某 个 范围 的 数据 行 ， 而 不 是 返回 整 张 表 。 如 果 
-个 查询 没有 WHERE 条 件 对 数据 进行 过 滤 ， 那 么 基本 可 以 判定 这 个 语句 的 执行 效率 会 很 低 。 
(2) 在 数据 仓库 中 , 我 们 应 用 的 典型 的 场景 是 一 张 非 常 大 的 事实 表 和 几 张 比较 小 的 维度 表 进 
行 关联 操作 。 在 这 个 场景 中 ， 对 事实 表 的 查询 基本 是 对 全 表 或 者 某 个 分 区 的 全 扫描 ， 而 对 维度 表 
的 查询 则 是 根据 查询 条 件 过 滤 出 需要 维度 的 单行 或 者 范围 查询 。 在 这 种 场景 中 ， 我 们 建议 事实 表 
使 用 HDFS 存储 ， 而 维度 表 使 用 基于 HBase 的 表 存 储 。 


应 用 到 HBase 行 键 的 查询 谓词 可 以 很 好 的 限定 查询 的 范围 。 但 是 如 果 行 键 没 有 映射 到 
STRING 列 ， 在 底层 行 键 就 无 法 正确 的 排序 ， 查 询 时 的 比较 操作 符 将 无 法 正确 使 用 。 
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当 谓 词 使 用 了 非 行 键 的 列 时 ， 查 询 相当 于 向 HBase 发 送 了 一 个 SingleColumnValueFilters， 跟 
使 用 普通 的 Impala 表 相 比 ， 查 询 会 有 一 定 的 性 能 提升 。 因 为 如 果 使 用 非 行 键 作 为 谓词 ， 即 使 我 们 
最 终 返回 的 数据 只 有 很 少 的 行 ， 但 是 它 也 需要 扫描 HBase 的 整 张 表 。 

1. 执行 计划 


我 们 可 以 通过 Impala 的 执行 计划 来 查看 一 个 查询 执行 的 细节 ， 并 且 通 过 执行 计划 提供 的 信息 
来 初步 判定 一 个 查询 的 效率 。 


该 表 第 一 列 cust_id 为 HBase 表 的 行 键 。 根 据 之 前 的 描述 ， 我 们 需要 把 这 列 定 义 为 STRING 
列 。 而 且 数据 列 BIRTH_YEAR、NEVER_LOGGED_ON 原 有 的 类 型 分 别 为 INT 和 BOOLEAN， 
现在 也 被 定义 为 STRING 列 ， 因 为 Impala 对 STRING 类 型 的 处 理 比 HBase 更 有 效率 。 为 了 比较 
这 种 效率 上 的 差别 ， 我 们 故意 把 列 YEAR_REGISTERED 保持 为 原 有 的 INT 类 型 。 

使 用 HBase 的 典型 的 场景 就 是 对 行 键 进 行 一 个 等 值 比较 的 查询 : 
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另外 一 个 典型 的 场景 是 对 行 键 进行 范围 查询 。 如 下 示例 中 除了 对 行 键 进行 范围 查询 ， 还 对 一 
个 非 行 键 进行 了 等 值 查询 。Impala 可 以 将 对 这 个 非 行 键 的 等 值 查询 推送 到 HBase 中 去 进行 比较 ， 
在 执行 计划 的 hbase filters 列 中 我 们 可 以 看 到 这 个 信息 在 HBase 中 进行 这 种 过 滤 远 远 比 将 数据 传 
送 到 Impala 中 再 进行 过 滤 来 得 高 效 。 
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如 下 的 查询 在 WHERE 条 件 中 只 有 针对 一 个 非 行 键 列 的 等 值 比较 ，Impala 必须 要 扫描 整 张 
HBase 表 才 能 返回 结果 。Impala 只 有 将 HBase 中 的 列 声明 为 STRING 时 ， 才 会 将 SQL 中 的 谓词 
推进 到 HBase 中 处 理 。 这 个 查询 中 的 YEAR_REGISTERED 保留 了 原来 的 NT 类 型 。 在 执行 计划 
的 predicates 行 表示 针对 数据 的 过 滤 是 在 数据 全 部 传 到 Impala 中 处 理 过 之 后 进行 的 。 这 样 的 查询 
效率 会 非常 低 。 
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如 果 行 键 列 跟 一 个 非常 量 值 进行 比较 ， 那 么 即使 行 键 列 在 Impala 中 映射 到 了 STRING 列 ， 
即使 也 使 用 了 等 值 操作 符 ，Impala 也 必须 要 扫描 整 张 HBase 表 来 进行 处 理 。 


目前 ，Impala 对 于 OR 或 者 IN 子 句 并 没有 进行 特别 的 优化 。 如 果 我 们 在 查询 中 使 用 了 这 两 
个 关键 字 ，Impala 可 能 会 将 所 有 HBase 表 的 数据 传输 到 Impala 中 处 理 完 后 再 进行 过 滤 。 
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那么 如 何 解决 这 个 问题 呢 ? 我 们 可 以 将 上 述 语句 改写 为 UNION ALL 连接 的 没有 OR 和 IN 的 
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2. 配置 HBase Java 应 用 参数 


如 果 在 我 们 的 HBase Java 应 用 中 调用 了 org.apache.hadoop.hbase.client.Scan 类 的 
setCacheBlocks 或 者 setCaching 方法 , 为 了 控制 HBase region 服务 器 的 内 存 消耗 , 我 们 需要 Impala 
查询 参数 来 进行 同样 的 设置 。 比 如 ， 当 我 们 对 HBase 表 进 行 一 个 全 表 扫 描 的 查询 时 ， 我 们 可 以 通 
过 关闭 参数 HBASE_CACHE_BLOCKS 并 设 定 一 个 很 大 的 HBASE_ CACHING 来 减少 内 存 的 使 
用 ， 加 快 查询 速度 。 

在 Impala 中 配置 的 等 同 参数 需要 在 impala-shell 中 进行 配置 : 


另外 ， 也 可 以 更 改 impalad 进程 的 默认 文件 /etc/defaulvimpala ， 把 参数 
HBASE_CACHE_BLOCKS 和 HBASE_CACHING 配置 在 -default_query_options 部 分 。 


7.7.3 ”适用 场景 
如 下 的 场景 最 适合 使 用 Impala 来 查询 基于 HBase 的 表 : 


(1) 非常 大 的 事实 表 使 用 Impala 存储 ， 非 常 小 的 维度 表 使 用 基于 HBase 的 表 存 储 。 事 实 表 
使 用 Parquet 数据 格式 存储 ， 适 合 于 对 单列 或 者 少数 列 的 指标 进行 全 表 扫 描 ， 维 度 表 使 用 HBase 
存储 ， 适 合 于 对 维度 进行 精确 定位 。 

(2) 使 用 HBase 存储 快速 增加 的 数据 。HBase 可 以 有 效 地 处 理 变化 的 数据 : 通过 追加 的 方 
式 向 磁盘 写 入 新 增 数 据 ， 对 于 变更 的 数据 也 是 以 追加 的 方式 新 增 数据 ， 然 后 通过 时 间 戳 识别 返回 
最 新 的 版 本 的 数据 。HBase 对 于 我 们 指定 的 汇总 查询 有 一 定 优势 ， 而 Impala 可 以 执行 的 查询 更 有 
普遍 性 。 

(3) 存储 非常 宽 的 表 用 于 精确 查询 。 这 里 的 宽 表 指 的 甚至 可 能 包含 几 千 列 。 而 这 种 类 型 的 表 
往往 是 稀疏 的 ， 单 列 中 可 能 包含 很 多 的 NULL、0、”、 空 格 等 。 如 果 对 这 样 的 表 查 询 仅 获取 很 少 
量 的 记录 ， 可 能 使 用 HBase 更 有 优势 。 


另外 ， 基 于 HBase 的 Impala 表 可 以 与 其 他 的 Impala 表 进 行 关联 操作 。 
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7.7.4 数据 加 载 


Impala 中 的 INSERT 语句 可 以 对 基于 HBase 的 Impala 表 进 行 数据 插入 操作 。 我 们 知道 
INSERT... VALUES 语句 对 一 个 普通 的 Impala 表 进 行 数据 插入 是 一 个 效率 非常 低 的 操作 ， 同 时 还 
会 产生 很 多 小 文件 。 但 是 对 于 基于 HBase 的 Impala 表 ， 每 次 的 插入 操作 都 是 向 HBase 中 插入 一 
条 记录 ， 这 对 HBase 来 说 是 一 个 高 效 的 操作 方式 。 

当 我 们 使 用 INSERT...SELECT 向 基于 HBase 的 Impala 表 中 插入 数据 时 ， 可 能 我 们 最 终 能 够 
查询 到 的 数据 比 真正 插入 的 数据 要 少 。 这 是 因为 ， 针 对 拥有 同一 个 行 键 的 记录 ， 最 后 插入 的 记录 
拥有 最 大 的 版 本 号 ， 查 询 时 HBase 对 同一 个 行 键 仅 返 回 具 有 最 大 版 本 号 的 记录 。 虽 然 HBase 不 支 
持 更 新 操作 ， 但 是 这 种 情况 相当 于 变相 的 实现 了 UPDATE 操作 。 


7.7.5 ”启用 压缩 


由 于 Impala 对 HBase 的 支持 是 通过 引用 HBase 表 实 现 的 ， 所 以 对 基于 HBase 的 Impala 表 的 
压缩 ， 其 实 就 是 对 HBase 表 本 身 的 压缩 。 

GZIP 压缩 

对 GZIP 的 压缩 是 通过 在 创建 HBase 表 时 指定 COMPRESSION =>'GZ' 选 项 进行 的 。 例 如 : 


LZO 压缩 
首先 参照 文本 表 LZO 压缩 部 分 进行 配置 ， 然 后 创建 HBase 表 时 指定 压缩 选项 : 


Snappy 压缩 
在 core-site.xml 的 io.compression.codecs 属性 对 应 的 value 部 分 加 入 对 Snappy 的 支持 : 


将 hadoop-snappy-***.jar 复制 到 hadoop 以 及 hbase 的 lib 下, 然后 在 创建 HBase 表 时 指定 压 
缩 选项 : 
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7.7.6 ”限制 
针对 Impala 使 用 HBase 表 的 限制 ， 有 些 是 Hive 和 HBase 先天 的 ， 有 些 是 针对 Impala 的 : 


(1) 如 果 我 们 在 Impala 中 执行 DROP TABLE 操作 ， 对 应 的 HBase 表 不 会 被 删除 。 如 果 在 
Hive 中 执行 DROP TABLE 操作 ， 也 是 同样 的 情况 。 

(2) INSERT OVERWRITE 语句 对 HBase 表 不 可 用 。 我 们 可 以 向 基于 HBase 的 Impala 表 中 
插入 数据 ， 也 可 以 通过 插入 相同 行 键 的 记录 来 变相 的 实现 UPDATE 操作 ， 但 是 无 法 通过 
INSERT...OVERWRITE 实现 对 整个 表 的 数据 进行 替换 。 而 在 Hive 中 ， 则 可 以 通过 
INSERT...OVERWRITE 来 完成 该 功能 。 

(3) 避免 使 用 CREATE TABLE LIKE 语句 。 我 们 可 以 执行 CREATE TABLE LIKE 语句 来 创 
建 一 张 与 另外 一 张 表 类 似 的 、 基 于 HBase 的 Impala 表 , 但 是 创建 的 新 表 虽 然 名 称 与 原 表 不 同 , 但 
是 新 表 指 向 的 HBase 基 表 完全 相同 ， 所 以 这 样 做 的 结果 只 是 指定 了 一 张 原 有 表 的 别名 而 已 。 

(4) 慎 用 INSERT ... SELECT 语句 。 在 数据 加 载 部 分 我 们 已 经 解释 过 ， 通 过 这 种 方式 向 基 
于 HBase 的 Impala 中 插入 的 数据 可 能 比 源 数据 的 行 数 要 少 , 我 们 必须 从 业务 上 确认 这 样 的 结果 是 
合理 的 。 


7.7.7 示例 


在 HBase shell 中 ,我 们 可 以 执行 表 的 创建 和 删除 操作 。 表 创建 好 之 后 ,其 状态 默认 为 "enable ”， 
如 果 要 删除 这 张 表 ， 必 须 先 使 用 DISABLE “table_name 将 这 张 表 的 状态 置 为 “disable”。 


1. 字符 串 类 型 行 键 
在 Hive shell 中 执行 CREATE TABLE 语句 : 
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该 示例 演示 了 创建 一 张 映射 到 HBase 表 的 外 部 表 。 这 张 外 部 表 在 Hive 和 Impala 中 都 可 以 进 
行 查询 ， 也 可 以 进行 DROP 操作 ， 但 是 删除 操作 仅 会 删除 这 张 外 部 表 的 定义 ， 不 会 将 HBase 中 的 
基 表 执行 真正 的 删除 。 Impala 目前 不 支持 该 语句 中 的 STORED BY 子 句 所 以 只 能 在 Hive 的 shell 
中 执行 。WITH SERDEPROPERTIES 子 句 指定 第 一 列 id 作为 行 键 ， 其 余 的 列 与 HBase 中 的 列 族 
一 一 映射 。 其 中 ID 列 可 以 作为 查询 的 条 件 进行 单条 记录 的 快速 定位 操作 。 而 ID 列 使 用 STRING 
类 型 可 以 更 快 地 对 HBase 表 进 行 查询 。 


2. 非 字符 串 类 型 行 键 
我 们 也 可 以 把 行 键 定义 为 其 他 的 数据 类 型 ， 如 下 示例 所 示 : 


虽然 语法 上 支持 这 么 定义 ， 但 是 Impala 强烈 建议 我 们 行 键 的 列 类 型 使 用 STRING 类 型 。 
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默认 情况 下 , 一 张 表 的 所 有 的 数据 文件 都 位 于 同一 个 HDFS 的 目录 中 。 分 区 是 在 数据 加 载 期 间 
将 数据 依据 一 列 或 者 多 列 将 数据 加 载 到 不 同 的 物理 位 置 ， 以 加 速 对 该 列 或 者 该 几 列 查询 速度 的 一 
项 技术 。 比 如 ， 表 school_records 按照 year 列 ， 也 就 是 年 份 列 进行 分 区 ,那么 每 一 个 年 份 将 对 应 一 
个 不 同 的 数据 目录 ， 所 有 同一 年 份 的 数据 放 在 同一 个 数据 目录 中 。 当 对 该 表 的 查询 使 用 形 如 
YEAR=1966，YEAR IN(1989，1999) 或 者 YEAR BETWEEN 1984 AND 1989 的 WHERE 条 件 时 ， 
Impala 只 会 读 取 年 份 对 应 的 数据 目录 ， 大 大 减少 了 数据 的 读 取 量 ， 提 高 了 查询 的 效率 。 


分 区 技术 适用 场合 


分 区 技术 适用 于 以 下 场合 : 


(1) 表 的 数据 量 非 常 庞大 ， 单 词 读 取 整 个 表 的 时 间 不 在 我 们 承受 的 范围 之 内 。 

(2 ) 表 总 是 依据 某 些 特定 的 列 进行 查询 。 如 上 述 示例 中 的 依据 年 份 作 为 分 区 列 的 
School records 表 。 对 于 查询 SELECT COUNT(*) FROM school records WHERE year = 1985， 如 果 
表 school_ records 为 按 年 份 的 分 区 表 ， 那 么 只 需要 读 取 1985 年 的 相应 的 数据 目录 的 数据 即 可 ; 而 
如 果 该 表 不 是 分 区 表 ， 那 么 就 要 对 表 中 的 全 部 数据 进行 读 取 ， 效 率 将 大 大 降低 。 如 果 我 们 最 经 常 
使 用 的 查询 不 是 按 年 份 进行 查询 ， 而 是 按 名 字 ， 学 号 或 者 其 他 条 件 进行 查询 ， 可 能 按 年 份 分 区 就 
不 是 一 个 好 的 选择 了 。 

(3) 分 区 列 要 有 一 定 的 区 分 度 ， 也 就 是 要 包含 一 定数 据 的 非 重复 值 。 如 果 单列 的 非 重 复 值 很 
少 ， 比 如 性 别 列 ， 只 有 两 个 值 ， 男 或 者 女 ， 如 果 我 们 针对 性 别 列 进行 查询 ， 无 论 是 男 还 是 女 ， 理 
论 上 都 能 匹配 到 一 半 的 数据 ， 查 询 效率 的 提升 并 不 明显 。 分 区 列 包 含 的 非 重复 值 越 多 ， 针 对 某 个 
特定 的 值 匹配 到 的 数据 条 数 越 少 ， 同 时 与 该 值 对 应 的 数据 目录 中 的 数据 文件 越 小 ， 对 效率 的 提升 
越 明 显 。 比 如 ， 对 于 人 口 普查 的 数据 ， 我 们 可 能 按 年 份 分 区 ， 对 于 销售 报表 数据 ， 我 们 需要 按 年 
和 月 进行 分 区 ， 对 于 某 些 庞大 的 网 站 流量 数据 ， 我 们 需要 精确 到 天 ， 甚 至 到 小 时 或 者 分 钟 。 

(4) 数据 已 经 经 过 ETL 处 理 。 不 同 分 区 的 键 值 最 终 会 被 分 离 的 放 在 不 同 的 数据 目录 中 ， 因 
此 将 数据 加 载 到 分 区 表 之 前 需要 进行 必要 的 转换 和 预 处 理 。 


吕 .2 分 区 表 相关 SQL 语句 


使 用 分 区 影响 到 的 Impala SQL 的 语法 如 下 : 


e@ CREATE TABLE: 我 们 可 以 指定 一 个 PARTITONED BY 子 句 创建 一 张 指 定 了 分 区 列 类 
型 和 名 称 的 分 区 表 。 分 区 列 不 能 被 包括 在 CREATE TABLE 指定 的 其 他 列 定义 的 列表 中 。 

e ALTER TABLE: 我 们 可 以 进行 添加 或 者 删除 分 区 操作 。 对 于 过 期 的 ， 不 再 需要 的 数据 ， 
我 们 可 以 将 其 对 应 的 日 期 型 分 区 删除 。 

e INSERT: 当 我 们 向 分 区 表 中 插入 数据 时 ， 我 们 需要 指定 分 区 列 。 新 插入 的 数据 存储 在 哪 
个 数据 目录 的 数据 文件 中 ， 是 由 分 区 列 的 键 值 决定 的 。 我 们 也 可 以 使 用 INSERT 
OVERWRITE 语句 将 一 组 数据 显 式 地 加 载 到 某 个 特定 的 分 区 来 替换 整个 分 区 的 内 容 。 


虽然 SELECT 语法 的 用 法 与 表 是 否 为 分 区 表 没 有 什么 不 同 但 是 针对 分 区 表 的 SELECT 查询 
在 性 能 和 扩展 性 上 的 影响 却 非常 大 。 


号 .了 分 区 个 竟 


分 区 修剪 技 术 指 的 是 一 个 查询 可 以 跳 过 一 个 或 者 多 个 分 区 对 应 的 数据 文件 的 一 项 技术 。 如 果 
我 们 在 执行 计划 中 发 现 通 过 分 区 修剪 技术 跳 过 了 大 量 的 没 必 要 扫描 的 分 区 ， 那 么 这 个 查询 肯定 可 
以 使 用 更 少 的 资源 ， 而 且 运 行 效率 也 更 高 。 

例如 : 如 果 一 张 表 通 过 YEAR、MONTH、DAY 分 区 , 而 WHERE 条 件 中 包含 了 形 如 WHERE 
year=2013，WHERE year<2010 或 WHERE year BETWEEN 1995 AND 1998 这 样 的 子 句 ，Impala 
将 会 跳 过 所 有 的 与 条 件 中 给 出 的 不 相关 年 份 的 分 区 对 应 的 数据 目录 。 如 果 查 询 条 件 形 如 WHERE 
year=2013 AND month BETWEEN 1 AND 3, 更 为 精确 的 条 件 将 通过 分 区 修剪 技术 忽略 掉 更 多 的 与 
月 份 不 相关 的 分 区 ， 对 整个 查询 来 说 读 取 的 数据 量 更 小 。 

为 了 有 效 地 确认 分 区 修剪 技术 是 否 在 一 个 查询 中 生效 ， 我 们 可 以 通过 EXPLAIN 输出 来 检查 
确认 。 如 下 示例 中 有 一 张 包 含 了 三 个 分 区 的 表 ， 而 查询 只 读 取 其 中 一 个 分 区 。 执 行 计划 中 的 


“jpartitions=1/3” 标 识 着 Impala 可 以 通过 分 区 修剪 技术 只 读 取 三 个 分 区 中 一 个 分 区 的 数据 就 可 
以 完成 这 个 查询 。 
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Impala 不 但 能 对 直接 按 分 区 键 值 作为 查询 条 件 的 语句 进行 分 区 修剪 ， 而 且 也 可 以 对 WHERE 
条 件 中 的 分 区 列 使 用 传递 属性 进行 分 区 修剪 。 这 项 技术 被 称 为 谓词 推进 ， 在 Impala 1.2.2 或 者 更 高 
版 本 中 可 以 使 用 。 在 如 下 的 示例 中 ， 调 查 表 使 用 每 10 年 作为 一 个 分 区 的 时 间 间 隔 。 示 例 中 的 查询 
使 用 的 形式 不 是 分 区 列 等 于 一 个 常量 值 ， 但 是 Impala 通过 传递 属性 可 以 分 析出 分 区 列 等 于 某 个 常 
量 是 查询 的 必要 条 件 ， 并 进行 分 区 修剪。 
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如 果 要 了 解 该 语句 执行 的 更 多 细节 ， 请 在 执行 该 语句 后 运行 PROFILE 命令 进一步 检查 。 
如 果 视 图 的 基 表 是 一 张 分 区 表 ， 那 么 分 区 修剪 依据 的 唯一 条 件 就 是 该 视图 定义 的 原始 语句 本 
身 。Impala 不 会 对 视图 查询 指定 的 条 件 进行 进一步 的 分 区 修剪 操作 。 
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号 .人 分 区 键 列 


一 般 情 况 下 ， 选 择 最 频繁 使 用 的 ， 能 够 对 大 量 数据 进行 过 滤 的 列 作为 分 区 列 。 我 们 最 经 常 使 
用 的 分 区 列 包括 和 日 期 时 间 相关 的 年 份 、 月 份 、 日 期 等 ， 另 外 ， 区 域 的 物理 位 置 也 可 以 作为 分 区 
列 使 用 。 


(1) 对 于 基于 时 间 的 数据 ,我 们 需要 将 需要 使 用 的 、 作 为 分 区 键 的 部 分 单独 抽取 出 来 。 因为 
Impala 不 能 基于 TIMESTAMP 列 分 区 。 

(2) 分 区 列 的 数据 类 型 对 真正 存储 在 HDFS 上 的 数据 文件 的 大 小 影响 不 大 。 因 为 分 区 列 的 
值 不 是 真正 地 存储 到 数据 文件 中 ， 而 是 以 字符 串 的 形式 作为 HDFS 数据 目录 名 称 的 一 部 分 。 

(3) 我 们 要 时 刻 谨 记 Impala 查询 的 是 存储 在 HDFS 上 的 数据 。 数 据 文件 至 少 是 几 十 兆 或 者 
更 大 ,对 HDFS 的 IO 操作 才 更 有 优势 。 对 于 Parquet 表 ， 数 据 块 大 小 为 1GB。 因 此 ， 我 们 要 尽量 
避免 由 于 选择 的 分 区 键 包含 太 多 的 值 ， 而 使 每 个 分 区 值 对 应 的 数据 文件 个 数 过 多 ， 单 个 数据 文件 
过 小 。 比 如 ， 如 果 我 们 每 天 产生 1GB 的 数据 ， 那 么 我 们 可 以 按 年 ， 月 ， 日 分 区 。 如 果 我 们 每 分 钟 
产生 5GB 的 数据 ， 那 么 我 们 可 以 按 年 、 月 、 日 、 小 时 、 分 钟 作为 分 区 列 。 如 果 我 们 的 数据 包含 地 
理 位 置信 息 ， 我 们 可 以 用 省 份 、 地 市 、 县 、 或 者 地 区 的 邮政 编码 作为 分 区 列 。 


加 .5 使 用 不 同 的 文件 格式 


分 区 表 对 文件 格式 的 要 求 具有 很 大 的 灵活 性 ， 我 们 甚至 可 以 为 不 同 的 分 区 使 用 不 同 的 文件 格 
式 。 例 如 ， 我 们 的 表 使 用 纯 文 本 的 文件 格式 ， 随 后 我 们 使 用 RCFile 作为 新 的 文件 格式 接收 数据 ， 
或 者 也 可 以 再 使 用 Parquet 作为 新 的 文件 格式 ， 而 所 有 的 数据 可 以 在 同一 张 表 中 进行 查询 。 但 是 
这 样 做 的 前 提 是 ， 我 们 必须 保证 不 同 的 分 区 使 用 了 不 同 的 文件 格式 。 

如 下 示例 中 展示 了 如 何 将 text 类 型 转换 为 Parquet 类 型 : 
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这 个 示例 中 year=2012 分 区 使 用 了 text 文件 格式 ，year=2013 分 区 使 用 了 Parquet 文件 格式 。 
当然 ， 生 产 环境 中 一 般 不 会 使 用 INSERT ... VALUES 这 种 方式 插入 数据 ， 而 是 使 用 INSERT .…. 
SELECT 或 者 LOAD DATA 方式 向 表 中 加 载 数据 。 

对 于 其 他 的 数据 文件 类 型 ， 我 们 无 法 直接 使 用 Impala 进行 创建 。 但 是 我 们 可 以 通过 在 Hive 
中 执行 ALTER TABLE ... SET FILEFORMAT、 INSERT 或 者 LOAD DATA 方式 将 数据 加 载 进 特定 
的 数据 文件 格式 中 。 最 后 , 我 们 在 Impala 中 使 用 REFRESH table_name 来 更 新 该 表 的 元 数据 信息 ， 
让 Impala 可 以 识别 到 新 的 数据 文件 和 数据 。 
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本 章 将 主要 介绍 影响 Impala 性 能 的 主要 因素 ， 以 及 监控 ， 调 整 ， 压 力 测试 的 整个 过 程 。 

另外 ， 本 章 还 描述 了 如 何 最 大 限度 地 提高 Impala 的 可 扩展 性 问题 。 可 扩展 性 和 性 能 密 不 可 分 ， 
即 要 保证 随 着 系统 负载 的 不 断 增加 ， 系 统 仍然 可 以 保持 良好 的 性 能 。 比 如 : 我 们 通过 对 单个 的 查 
询 优化 减 小 的 磁盘 IO， 那 也 就 意味 着 同时 其 他 查询 可 以 使 用 更 多 的 磁盘 IO， 也 就 变相 的 提高 了 系 
统 的 可 扩展 性 。 跟 磁盘 IO 一 样 的 道理 ， 如果 我 们 对 一 个 查询 的 优化 可 以 减少 内 存 的 使 用 ， 那 么 说 
明 其 他 查询 在 同一 时 间 可 以 使 用 更 多 的 内 存 资源 ， 也 是 变相 的 提高 了 系统 的 可 扩展 性 。 在 某 些 情 


况 下 ， 


通过 优化 技术 提高 系统 的 可 扩展 性 比 提升 性 能 本 身 更 加 重要 。 


下 面 给 出 性 能 优化 的 几 个 重要 术语 的 定义 : 


分 区 : 这 项 技术 在 物理 上 基于 分 区 的 键 值 将 数据 分 开 存 放 ， 这 样 在 基于 键 值 列 查询 时 ， 
只 需 对 相应 的 键 值 列 数据 进行 操作 就 可 以 返回 结果 。 

连接 查询 : 连接 优化 是 我 们 在 SQL 级 别 能 够 进行 的 最 主要 的 优化 之 一 。 如 果 从 SQL 级 
别 能 够 把 查询 优化 到 我 们 容许 的 时 间 内 ， 就 不 必 进行 像 改变 数据 文件 格式 或 者 改变 硬件 
配置 的 其 他 优化 。 

表 统计 信息 : 使 用 COMPUTE STATS 语句 搜集 表 和 列 统计 信息 可 以 帮助 Impala 自动 优 
化 连接 查询 。 

性 能 测试 : 在 进行 基准 测试 之 前 ， 我 们 要 通过 进行 测试 确保 Impala 使 用 的 配置 达到 了 
最 佳 性 能 。 

基准 测试 : 我 们 使 用 的 初始 化 配置 和 样本 数据 往往 不 适合 做 性 能 测试 。 

控制 资源 使 用 : 一 般 情 况 下 Impala 使 用 的 内 存 越 多 ， 查 询 的 性 能 越 好 。 然 而 在 一 个 集 
群 中 ， 我 们 可 能 除了 Impala， 还 有 其 他 不 同 的 Hadoop 组 件 ， 我 们 要 保证 所 有 的 组 件 都 
能 申请 到 足够 的 内 存 资 源 。 


最 佳 实践 


这 里 列 出 的 指导 原则 和 最 佳 实践 可 以 指导 我 们 规划 、 测 试 和 性 能 优化 。 


(1) 为 数据 选择 合适 的 文件 格式 。 
通常 情况 下 ， 对 于 海量 数据 〈 每 张 表 或 者 每 个 分 区 至 少 要 有 几 个 GB) 的 存储 ，Parquet 文件 
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格式 具有 很 大 的 优势 ， 因 为 它 按 列 存储 ， 单 次 IO 可 以 请 求 更 多 数据 ， 另 外 它 也 有 很 好 的 压缩 算 
法 对 二 进 制 文件 进行 压缩 。 

(2) 避免 在 数据 处 理 过 程 中 产生 很 多 小 文件 。 

使 用 INSERT...SELECT 在 表 表 之 间 拷 贝 数据 。 避 免 对 海量 数据 或 者 影响 性 能 的 关键 表 使 用 
INSERT...VALUES 插入 数据 ， 因 为 每 条 这 样 的 INSERT 语句 都 会 产生 单个 的 小 文件 。 

如 果 在 数据 处 理 过 程 中 产生 了 上 千 个 小 文件 ， 我 们 需要 使 用 INSERT...SELECT 来 将 数据 复 
制 到 另外 一 张 表 ， 在 复制 的 过 程 中 也 解决 了 小 文件 过 多 的 问题 。 


(3) 合适 的 使 用 分 区 技术 。 比 如 ， 如 果 我 们 有 一 个 包含 上 千 个 分 区 的 Parquet 表 ， 每 个 分 区 
的 数据 都 小 于 1GB， 那 么 我 们 就 要 考虑 以 更 大 的 粒度 来 作为 分 区 的 提交 ， 比 如 如 果 原 来 的 分 区 键 
值 是 年 月 日 ， 那 么 现在 我 们 就 可 以 考虑 只 使 用 年 和 月 。 只 有 分 区 的 粒度 使 数据 文件 的 大 小 合适 ， 
才能 充分 利用 HDFS 的 IO 批 处 理性 能 和 Impala 的 分 布 式 查询 。 


(4) 使 用 COMPUTE STATS 搜集 连接 查询 中 海量 数据 表 或 者 影响 性 能 的 关键 表 的 统计 信息 。 
(5) 最 小 化 向 客户 端 传输 结果 的 开销 。 可 以 考虑 使 用 如 下 技术 : 


@ 聚集 : 如 果 我 们 需要 计算 满足 某 个 条 件 的 记录 行 数 ， 求 匹配 到 的 行 数 中 某 些 列 的 和 ， 最 大 
值 、 最 小 值 等 ， 不 要 将 整个 结果 集 发 送 到 客户 端 由 客户 端 应 用 来 处 理 这 些 数据 ， 而 是 可 以 
调用 像 COUNT()、SUM()、MAXO 等 聚集 函数 来 处 理 。 如 果 将 未 聚集 过 的 数据 整个 发 送 
给 客户 端 ， 单 单 将 数据 传送 到 客户 端 这 一 个 动作 就 需要 消耗 很 大 的 网 络 开销 。 

e@ 过 滤 : 使 用 不 同 的 谓词 条 件 尽 可 能 的 缩小 结果 集 的 大 小 ， 而 不 是 把 整个 结果 集 发 送 到 应 用 
端 ， 由 应 用 来 处 理 过 滤 的 逻辑 。 

e LIMIT 子 句 : 如 果 我 们 只 需要 查看 很 少 的 样本 数据 ， 或 者 查看 使 用 ORDER BY 之 后 产生 
的 最 大 值 或 者 最 小 值 ， 可 以 使 用 LIMIT 子 名 来 最 大 限度 的 减 小 结果 集 的 大 小 。 

e@ 避免 对 结果 集 使 用 美化 输出 : 当 我 们 通过 impala-shell 获取 数据 时 ， 可 以 指定 -B 和 
--Output_delimiter 选项 输出 原始 的 结果 集 ， 而 不 需要 Impala 对 输出 的 格式 进行 美化 ， 或 者 
直接 将 结果 集 重 定向 到 文件 中 。 上 述 的 情况 也 可 以 考虑 直接 对 查询 的 语句 使 用 
INSERT ...SELECT 将 结果 集 直 接 写 到 HDFS 上 。 


(6) 在 实际 运行 一 个 查询 之 前 ， 先 使 用 EXPLAIN 查看 它 的 执行 计划 是 否 将 以 高 效 合理 的 方 
式 运 行 。 

(7) 在 运行 一 个 查询 之 后 ， 使 用 PROFILE 命令 从 底层 确认 IO， 内 存 消耗 ， 网 络 带 宽 占用 ， 
CPU 使 用 率 等 信息 是 否 在 我 们 期 望 的 范围 之 内 。 


名 . 2 连接 查询 优化 
涉及 到 连接 的 查询 往往 比 对 单 表 查询 更 需要 优化 操作 。 连 接 查 询 产 生 的 最 大 结果 集 是 参与 关 
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联 的 所 有 表 的 记录 数 的 乘积 。 当 我 们 对 百 万 级 别 的 表 和 十 亿 级 别 的 表 关 联 时 ， 忽 略 对 结果 集 的 提 
前 过 滤 的 操作 ， 或 者 其 他 可 能 拖 慢 查询 速度 的 因素 都 有 可 能 导致 查询 不 能 在 预期 的 时 间 内 完成 ， 
甚至 导致 查询 被 终止。 

优化 连接 最 简单 的 方式 就 是 使 用 COMPUTE STATS 命令 搜集 所 有 参与 关联 表 的 统计 信息 , 让 
Impala 根据 每 个 表 的 大 小 、 列 的 非 重 复 值 个 数 等 相关 信息 自动 优化 查询 。COMPUTE STATS 和 连 
接 查询 的 优化 都 是 自 Impala 1.2.2 开始 提供 的 功能 。 为 了 保证 统计 信息 的 准确 性 , 我 们 需要 在 对 表 
INSERT、LOAD DATA 或 者 添加 分 区 等 操作 之 后 及 时 执行 COMPUTE STATS 命令 搜集 统计 信息 。 

如 果 参 与 关联 的 表 的 统计 信息 不 可 用 ,而 且 Impala 自动 选择 的 连接 顺序 效率 很 低 ， 我 们 可 以 
在 SELECT 关键 字 后 使 用 STRAIGHT JOIN 关键 字 手 动 指定 连接 的 顺序 。 指 定 了 该 关键 字 之 后 ， 
Impala 将 使 用 表 在 查询 中 出 现 的 先后 顺序 作为 关联 顺序 进行 处 理 。 

当 我 们 使 用 了 STRAIGHT_JOIN 关键 字 之 后 ， 我 们 必须 保证 查询 中 表 的 先后 顺序 ， 也 就 是 表 
的 连接 顺序 ， 而 不 能 依赖 于 Impala 优化 器 。 对 于 自动 优化 的 查询 ， 优 化 器 能 够 计算 出 连接 的 每 个 
阶段 结果 集 的 大 小 。 而 对 于 手动 指定 连接 顺序 的 查询 ， 我 们 可 能 需要 根据 情况 对 连接 顺序 进行 微 
调 : 


(1) 指定 最 大 的 表 作 为 第 一 张 表 。 在 查询 执行 的 这 个 阶段 ， 只 是 把 数据 从 Impala 节点 的 磁 
盘 上 读 出 来 ， 对 内 存 的 消耗 并 不 严重 。 

(2) 指定 最 小 的 表 作 为 下 一 张 表 。 后 续 的 第 二 张 表 、 第 三 张 表 等 都 需要 经 过 网 络 传输 。 如 果 
我 们 想 保持 后 续 连接 查询 的 每 个 阶段 结果 集 的 大 小 ,最 有 可 能 的 做 法 就 是 先 和 一 张 最 小 的 表 关 联 ， 
这 样 生成 的 结果 集 也 是 最 小 的 。 

(3 ) 接着 指定 剩 下 的 表 中 最 小 的 表 作为 下 一 张 表 ， 以 此 类 推 。 比 如 : 如 果 有 四 张 表 分 别 为 
BIG、MEDIUM、SMALL、TINY, 那么 按照 上 述 的 说 明 连 接 的 顺序 应 该 是 : BIG、TINY、SMALL、 
MEDIUM。 


Impala 查询 优化 器 根据 表 的 绝对 大 小 和 相对 大 小 为 连接 查询 选择 不 同 的 关联 技术 ， 它 提供 了 
两 种 连接 方式 : 
@ 默认 的 连接 方式 是 Broadcast 连接 ， 当 右手 表 比 左手 表 小 时 ， 它 的 内 容 会 被 发 送 到 所 有 执 
行 查 询 的 节点 上 。 
e@ 另外 一 种 连接 方式 是 partitioned 连接 ， 它 使 用 于 大 小 差 不 太 多 的 大 表 关 联 。 使 用 此 种 方式 
关联 ， 为 了 保证 关联 操作 可 以 并 行 执行 ， 每 个 表 的 一 部 分 数据 都 会 被 发 送 到 不 同 节 点 上 ， 
最 后 各 节点 分 别 对 传送 过 来 的 数据 并 行 处 理 。 


具体 Impala 优化 器 选择 哪 种 连接 方式 ， 完 全 依赖 于 通过 COMPUTE STATS 搜集 的 表 的 统计 
信息 。 

为 了 确认 表 的 连接 策略 ， 我 们 可 以 对 一 个 特定 的 查询 执行 EXPLAIN 语句 。 如 果 通 过 基准 测 
试 我 们 可 以 确认 一 种 连接 方式 比 另 一 种 连接 方式 效率 更 高 , 也 可 以 通过 Hint 的 方式 手动 指定 需要 
的 连接 方式 。 
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1. 当 统计 信息 不 可 用 时 如 何 关联 


如 果 参 与 关联 的 某 些 表 的 统计 信息 还 是 可 用 的 ，Impala 会 根据 存在 统计 信息 的 表 重 新 生成 连 
接 顺序 。 有 统计 信息 的 表 会 被 放置 在 连接 顺序 的 最 左 端 ， 并 根据 表 的 基数 和 规模 降序 排列 。 而 没 
有 统计 信息 的 表 被 作为 空 表 对 待 ， 总 是 放 在 连接 顺序 的 最 右 端 。 


2. 使 用 STRAIGHT_JOIN 覆盖 连接 顺序 


如 果 关 联 查 询 由 于 统计 信息 过 期 或 者 数据 分 布 等 问题 导致 效率 低下 ， 我 们 可 以 通过 指定 
STRAIGHT JOIN 关键 字 改 变 连接 顺序 。 使 用 该 关键 字 后 ， 关 联 查 询 将 不 会 使 用 Impala 查询 优化 
器 自动 生成 的 连接 顺序 ， 而 是 使 用 查询 中 表 出 现 的 先后 顺序 作为 关联 的 顺序 。 

在 如 下 示例 中 ,， 表 BIG 经 过 过 滤 实 际 上 产生 了 一 个 非常 小 的 结果 集 ， 而 Impala 仍然 把 它 作为 
最 大 的 表 对 待 放 在 连接 顺序 的 最 左 人 出。 为 了 改变 优化 器 错误 的 判断 ， 我 们 使 用 STRAIGHT JOIN 
改变 连接 的 顺序 ， 把 BIG 表 放 到 了 连接 顺序 的 最 右 侧 : 


3. 连接 顺 亨 优化 示例 


示例 中 的 表 分 别 有 10 亿 行 、2 亿 行 、100 万 行 。 这 里 的 表 都 不 是 非 区 表 ， 而 且 使 用 Parquet 
格式 存储 。 比 较 小 的 表 的 数据 都 是 最 大 的 表 的 列 的 子 集 ， 它 们 都 使 用 唯一 列 ID 进行 关联 。 
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在 实际 运行 查询 之 前 使 用 EXPLAIN 查看 连接 的 信息 。 启 用 执行 计划 的 详细 输出 ， 我 们 可 以 
看 到 更 多 性 能 相关 的 输出 信息 : 需要 着 重 提示 的 信息 以 黑体 显示 。 输 出 信息 提示 我 们 参与 关联 的 
表 没 有 统计 信息 ，Impala 不 能 为 每 个 执行 阶段 估计 出 结果 集 的 大 小 ， 它 坚持 使 用 BROADCAST 
的 方式 向 每 个 节点 发 送 一 个 表 的 完整 副本 。 
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源 大 数据 分 析 引擎 Impala 实战 有 


为 每 张 表 执行 COMPUTE STATS 搜集 统计 信息 : 
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搜集 完 统计 信息 之 后 ，Impala 可 以 依据 统计 信息 选择 更 有 效率 的 连接 顺序 ， 而 选择 
BROADCAST 还 是 PARTITIONED 连接 方式 仍然 是 依据 表 的 大 小 和 行 数 的 差别 来 确定 。 


源 大 数据 分 析 引擎 Impala 实战 有 
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F 源 大 数据 分 析 引 擎 Impala 实战 》 


而 实际 执行 查询 时 发 现 无 论 表 的 连接 顺序 如 何 ， 实 际 的 执行 时 间 都 相差 不 多 。 因 为 样本 数据 
中 的 ID 列 和 VAL 列 都 包含 很 多 重复 值 : 
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日 .了 使 用 统计 信息 


当 统计 信息 可 用 时 ，Impala 可 以 依据 表 中 数据 的 规模 、 值 的 分 布 等 信息 对 复杂 查询 或 者 多 表 
查询 进行 很 好 的 优化 。 本 部 分 将 介绍 Impala 使 用 的 统计 信息 的 类 别 ， 如 何 产生 并 保持 最 新 的 统计 
信息 。 


开源 大 数据 分 析 引 擎 Impala 实战 


在 早期 版 本 中 ，Impala 对 统计 信息 的 搜集 依赖 于 Hive 的 统计 信息 搜集 机 制 ， 需 要 使 用 
ANALYZE TABLE 语句 运行 一 个 MapReduce 作业 。 从 用 户 友 好 和 可 靠 性 考虑 ，Impala 实现 了 自 
己 的 COMPUTE STATS、SHOW TABLE STATS、SHOW COLUMN STATS 语句 。 


1. 表 统 计 信息 
当 元 数据 库 中 有 表 或 者 分 区 的 统计 信息 元 数据 时 ，Impala 查询 优化 器 会 充分 利用 这 些 信 息 ， 


并 结合 列 统计 信息 为 查询 语句 自动 生成 优化 的 执行 路 径 。 
搜集 表 统 计 信 息 有 如 下 方式 : 


(1) 在 Impala 中 执行 COMPUTE STATS 语句 。 该 语句 自 Impala 1.2.2 起 开始 支持 ， 是 最 好 的 
搜集 统计 信息 的 方式 : 


@ 使 用 这 个 语句 将 自动 对 表 、 分 区 及 列 统计 信息 进行 搜集 ， 使 用 一 条 语句 即 可 完成 。 

@ 它 不 依赖 于 Hive 的 配置 ， 元 数据 配置 及 持 有 统计 信息 的 元 数据 库 是 否 是 单独 等 等 限制 。 

e@ 可 以 对 已 搜集 过 统计 信息 的 表 进 行 增 量 搜集 。 比 如 ， 我 们 为 表 添加 了 一 个 分 区 ， 或 者 插入 
了 新 的 数据 ， 我 们 可 以 使 用 ALTER TABLE 语句 只 搜集 更 新 的 属性 信息 ， 而 不 是 对 整个 
表 进 行 重 新 搜集 : 


(2) 当 hive.stats.autogather 设置 为 启用 时 ， 在 Hive 中 通过 INSERT OVERWRITE 语句 加 载 


数据 。 


(3) 在 Hive 中 使 用 ANALYZE TABLE 语句 对 整个 表 或 某 个 分 区 搜集 统计 信息 。 


日 为 一 个 非 分 区 表 搜 集 统 计 信 息 : 


日 为 一 个 分 区 的 所 有 分 区 搜集 统计 信息 : 


日 为 一 个 分 区 表 的 特定 分 区 搜集 统计 信息 : 


为 了 检查 确认 统计 信息 是 否 可 用 ， 或 者 像 查看 更 多 相关 细节 ， 可 以 使 用 SHOW TABLE STAT 
table_name 语句 。 


如 果 使 用 基于 Hive 的 方式 搜集 统计 信息 ， 在 Hive 侧 需要 进行 正确 的 配置 。Cloudera 推荐 使 
用 Impala 的 COMPUTE STATS 语句 搜集 统计 信息 ， 使 用 这 种 方式 可 以 避免 搜集 过 程 中 潜在 的 配 
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置 及 可 扩展 性 的 问题 。 
2. 列 统计 信息 


Impala 查询 优化 器 可 以 使 用 元 数据 库 中 单独 的 列 统计 信息 。 这 项 技术 对 于 跨 表 的 连接 查询 计 
算 连 接 后 返回 的 数据 集 的 大 小 非常 有 效 。 目 前 , Impala 不 能 自己 创建 这 些 元 数据 信息 , 但 是 在 Hive 
shell 中 使 用 ANALYZE TABLE 语句 可 以 搜集 这 些 统计 信息 。 

如 果 我 们 要 检查 确认 表 的 列 统计 信息 是 否 可 用 ， 可 以 使 用 SHOW COLUMN STATS 
table_name 语句 ， 或 者 使 用 EXPLAIN 语句 。 


3. 通过 ALTER TABLE 手动 设置 统计 信息 


对 于 表 或 者 某 个 分 区 来 说 最 重要 的 统计 信息 之 一 就 是 表 或 者 分 区 的 行 数 COMPUTE STATS 
语句 既 可 以 搜集 所 有 列 的 统计 信息 ， 也 可 以 搜集 表 的 统计 信息 。 在 生产 环境 中 ， 如 果 表 添加 了 分 
区 或 者 插入 了 数据 就 执行 COMPUTE STATS 来 搜集 统计 信息 并 不 是 唯一 的 做 法 但 是 如 果 我 们 可 
以 大 致 判断 数据 量变 化 足以 改变 执行 计划 ， 我 们 可 以 通过 ALTER TABLE 语句 手动 设置 具体 的 行 
数 的 统计 信息 。 


我 们 可 以 手动 的 更 新 表 的 总 行 数 的 统计 信息 : 


对 于 一 个 分 区 表 ， 我 们 可 以 不 但 可 以 设置 整 表 的 行 数值 ， 也 可 以 设置 每 个 分 区 的 行 数 : 


在 实践 中 大 多 数 情况 下 使 用 COMPUTE STATS 语句 已 经 可 以 有 效 地 搜集 更 新 这 些 元 数据 的 
变化 。 但 是 如 果 我 们 在 只 需要 对 numRows 进行 调整 以 获得 更 好 的 执行 计划 时 ， 我 们 可 以 考虑 使 
用 ALTER TABLE 手动 设置 这 些 统计 信息 。 比 如 ， 如 果 我 们 想 改 变 多 表 关 联 的 连接 顺序 时 ， 就 可 
以 使 用 这 项 技术 。 


4. 统计 信息 使 用 示例 
如 下 的 示例 我 们 将 通过 使 用 SHOW TABLE STATS`. SHOW COLUMN STATS 、ALTER TABLE 


以 及 SELECT 和 INSERT 语句 来 从 不 同 的 方面 描述 Impala 是 如 何 使 用 统计 信息 来 进行 优化 操作 
的 。 
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示例 中 使 用 的 表 是 TPC-DS 基准 测试 中 使 用 的 。 在 没有 搜集 统计 信息 之 前 ， 大 多 数 的 数字 字 
段 显 示 的 统计 信息 值 为 -1， 表 示 未 知 统计 信息 。 但 是 根据 仅 有 的 信息 ， 我 们 仍然 可 以 清楚 地 看 到 
像 数据 文件 的 个 数 ， 数 据 文件 的 大 小 ， 数 据 类 型 的 最 大 长 度 或 者 平均 长 度 等 信息 。 
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使 用 Hive 的 ANALYZE TALBE 可 以 为 我 们 指定 的 某 列 搜集 列 统计 信息 ， 而 使 用 Impala 的 
COMPUTE STATS 可 以 搜集 所 有 列 的 统计 信息 ， 因 为 它 对 整个 表 进 行 读 操作 ， 可 以 高 效 地 统计 出 
所 有 列 的 统计 信息 , 示例 中 显示 的 是 运行 了 COMPUTE STATS 之 后 表 和 列 统计 信息 的 变化 情况 


源 大 数据 分 析 引 营 Impala 实战 大 
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下 面 的 示例 展示 如 何 对 分 区 表 搜 集 统计 信息 。 示 例 中 我 们 使 用 一 张 按 年 份 分 区 的 表 中 的 一 个 
STRING 字段 来 保存 人 口 普 查 数据 信息 。 表 统计 信息 包括 对 每 个 分 区 的 统计 信息 和 整 表 的 统计 信 
息 。 


F 源 大 数据 分 析 引擎 Impala 实战 项 站 


在 使 用 COMPUTE STATS 搜集 统计 信息 之 后 : 


第 9 章 Impala 性 能 优化 


如 上 示例 展示 了 搜集 统计 信息 前 后 的 一 些 变化 我 们 可 以 在 搜集 统计 信息 前 后 查看 EXPLAIN 
的 输出 信息 ， 确 认 一 个 查询 是 如 何 执行 的 。 检 查 搜集 统计 信息 前 后 的 PROFILE 信息 ， 确 认 查 询 
时 间 变 化 、 吞 吐 量变 化 ， 来 校 验 对 整体 系统 性 能 的 影响 。 


口 . 亿 基准 测试 


和 其 他 的 Hadoop 组 件 类 似 ，Impala 是 用 来 做 大 数据 量 分 布 式 查询 的 ， 因 此 基准 测试 必须 使 
用 生产 环境 的 配置 信息 和 真实 的 数据 。 要 发 挥 分 布 式 查询 的 优势 ， 我 们 必须 使 用 多 个 节点 的 集群 
环境 。 要 发 挥 对 海量 数据 查询 的 优势 ， 我 们 必须 使 用 TB 级 的 表 进 行 测试 。 

当 我 们 运行 的 查询 返回 很 多 行 数据 时 ,用 于 结果 集 的 格式 化 美化 输出 可 能 占用 大 量 的 CPU 时 
间 ， 导 臻 最 终 集群 用 于 实际 的 查询 的 时 间 不 准确 。 为 了 避免 这 个 问题 的 产生 ， 我 们 可 以 使 用 
impala-shell 启动 选项 -B 关闭 格式 化 美化 输出 ， 或 者 使 用 -o 选项 将 查询 结果 重 定向 到 文件 中 。 


日 . 5 控制 资源 使 用 


在 生产 环境 中 为 了 平衡 单个 查询 的 性 能 和 集群 的 吞吐 量 ， 我 们 需要 最 集群 的 资源 进行 限制 ， 
比如 一 个 或 者 一 组 查询 使 用 的 内 存 、CPU 资源 等 。Impala 使 用 多 种 机 制 来 控制 Impala 查询 ， 
MapReduce 作业 和 其 他 类 型 的 作业 共同 协调 使 用 集群 资源 : 


”Impala 准 入 控制 功能 是 一 个 轻 量 级 的 ， 分 布 式 资源 控制 机 制 。 它 可 以 限制 查询 使 用 的 内 存 
段 大 小 ， 并 行 执行 的 查询 的 数量 等 。 如 果 查询 请 求 到 来 时 ， 系 统 已 经 达到 了 并 行 查询 的 最 
大 数量 ， 新 的 查询 请 求 会 被 放 入 等 待 队列 。 当 其 他 查询 执行 完成 ， 释 放 了 相关 资源 后 ， 等 
待 队列 中 的 查询 才能 够 被 执行 ， 另外， 我 们 可 以 通过 为 不 同 的 用 户 或 者 用 户 组 分 配 不 同 的 
资源 池 来 对 可 用 的 内 存 大 小 、 并 行 查询 的 数量 等 进行 不 同 的 限制 。 

e 我 们 可 以 通过 对 impalad 进程 指定 -mem _limit 选项 来 限制 预 留 给 查询 的 内 存 大 小 。 这 个 参 
数 仅 限制 被 查询 直接 消耗 的 内 存 。 而 对 于 像 元 数据 的 缓存 等 其 他 内 存 ，Impala 会 单独 进行 
分 配 。 

e@ 在 生产 环境 中 ，Cloudera 推荐 为 使 用 Cloudera Manager 配置 Cgroup 机 制 来 隔离 资源 的 使 
用 。 
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ee 如 果 我 们 在 CDH5 上 使 用 Impala 则 可 以 通过 Llama 来 使 用 基于 YARN 的 资源 管理 框架 


已 .O 性 能 测试 


测试 Impala 确保 它 使 用 了 优化 的 配置 。 如 果 我 们 使 用 Cloudera Manager 管理 集群 ， 则 安装 时 
它 会 自动 地 更 新 相关 的 配置 信息 ; 如 果 我 们 没有 使 用 Cloudera Manager 管理 集群 ， 则 需要 我 们 手 
动 验证 确保 集群 的 配置 正确 。 

1. 检查 Impala 配置 信息 
人 ED) 使 用 浏览 器 连接 到 impalad 进程 节点 。 


使 用 类 似 http://hostname:port/varz 的 URL。 其 中 hostname 是 要 连接 的 impalad 进程 节点 的 主 
机 名 ， 端 口号 默认 是 25000。 


人 02 检查 相关 配置 参数 。 


比如 ， 如 果 我 们 要 检查 数据 块 本 地 性 跟踪 信息 ， 我 们 需要 确认 参数 
dfs.datanode.hdfs-blocks-metadata.enabled 为 TRUE。 


2. 检查 数据 本 地 性 
人 ED 对 一 个 多 节点 分 布 的 数据 集 执行 查询 操作 。 比 如 ， 表 MyTable 是 一 个 跨 多 个 数据 节点 
的 分 布 表 : 


[impalad-host:21000] > SELECT COUNT (*) FROM MyTable 


GET02 在 查询 执行 完成 之 后 ,检查 Impala 日 志 信息 。 我 们 应 该 可 以 发 现 最 近 的 日 志 中 有 类 似 
信息 : 


Total remote scan volume = 0 


这 里 的 远程 扫描 可 能 标识 了 impalad 进程 没有 正确 的 运行 。 引 起 这 个 问题 的 原因 可 能 是 在 
DataNode 节点 上 没有 运行 Impalad 进程 也 可 能 是 查询 无 法 与 DataNode 上 的 impalad 进程 正确 通 


百 。 


3. 问题 排查 步骤 
人 IO 连接 到 调试 web 服务 器 。 该 web 服务 器 默认 端口 为 25000。 在 连接 到 的 页 面 上 我 们 可 
以 看 到 集群 中 所 有 的 impalad 进程 节点 , 确认 是 否 所 有 DataNode 上 的 impalad 进程 都 正 
确 启动 。 
B02 确保 impalad 进程 节点 主机 名 能 够 被 正确 解析 。 在 impalad 进程 启动 时 需要 使 用 到 主机 
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名 。 我 们 可 以 显 式 的 通过 --hostname 来 设置 主机 名 。 


人 3 检查 statestored 进 程 是 否 正常 运行 检查 statestored 进 程 的 日 志 信息 确认 所 有 的 impalad 
进程 节点 都 能 正确 地 与 statestored 进程 通信 。 


4. 检查 日 志 信息 


我 们 可 以 通过 检查 impala 日 志 信 息 来 确认 是 否 发 生 了 短路 读 ， 是 否 启用 了 块 位 置 跟踪 等 。 在 
检查 日 志 之 前 ， 我 们 使 用 当前 配置 对 一 个 很 小 的 HDFS 数据 集 执行 一 个 简单 查询 。 日 志 信息 和 它 
们 的 解释 如 下 表 所 示 : 


Log Message Interpretation 


Unknown disk id. This will negatively affect | Tracking block locality is notenabled 
performance. Check your hdfs settings to enable block 
location metadata 


Unable to load native-hadoop library for your platform... | Native checksumming is not enabled 
using builtin-java classes where applicable 


5. 理解 查询 性 能 


为 了 从 宏观 上 理解 Impala 查询 的 性 能 ， 我 们 可 以 不 用 真正 的 执行 查询 ， 直 接 使 用 EXPLAIN 
语句 查看 其 执行 计划 。 

为 了 从 细节 上 了 解 Impala 查询 的 吸 能 ， 我 们 可 以 在 impala-shell 中 执行 完 查 询 之 后 使 用 
PROFILE 语句 查看 更 详细 的 性 能 信息 。 通 过 PROFILE 输出 ， 我 们 可 以 了 解 到 像 内 存 消 耗 、CPU 
消耗 、IO 消耗 、 网 络 消耗 等 更 详细 的 信息 。 


日 .了 使 用 EXPLAIN 信息 


EXPLAIN 语句 为 我 们 提供 了 一 个 查询 执行 的 逻辑 步骤 包括 怎样 将 查询 分 布 到 多 个 节点 上 ， 
各 节点 之 前 怎样 交换 中 间 结 果 以 及 产生 最 终结 果 等 。 我 们 可 以 通过 这 些 信息 初步 判断 查询 执行 的 
方式 是 否 高 效 。 
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我 们 应 当 自 底 向 上 读 输 出 结果 : 


(1) 最 后 一 部 分 内 容 展示 了 像 读 取 的 总 数据 量 等 底层 的 详细 信息 。 通 过 读 取 的 数据 量 , 我 们 
可 以 判断 分 区 策略 是 否 有 效 ， 并 结合 集群 大 小 预 估 读 取 这 些 数 据 需要 的 时 间 等 。 

(2) 我 们 可 以 看 到 操作 是 否 被 Impala 不 同 的 节点 并 行 执行 。 

(3) 我 们 可 以 从 更 高 级 别 看 到 中 间 结 果 在 不 同 节点 间 的 流向 。 

(4) 通过 配置 EXPLAIN_LEVEL 参数 ， 我 们 可 以 了 解 到 更 详细 的 输出 信息 。 我 们 可 以 把 这 
个 参数 由 0 改 为 1 来 确认 统计 信息 是 否 存在 ， 估 算 查 询 要 消耗 的 资源 等 。 


中. 轴 使 用 PROFILE 信息 


在 impala-shell 中 , 我 们 使 用 PROFILE 语句 可 以 输出 最 近 执 行 的 查询 的 更 详细 更 底层 的 信息 。 
与 执行 计划 不 同 的 是 ， 查 询 必须 执行 完成 后 ， 才 能 使 用 PROFILE 输出 信息 。 它 包括 了 执行 该 查 
询 每 个 节点 读 取 的 物理 字 节 数 ， 使 用 的 最 大 内 存量 等 信息 。 通 过 这 些 信息 ， 我 们 可 以 判断 查询 是 
IO 消耗 型 的 ，CPU 消耗 型 的 ， 网 络 消耗 型 的 ， 或 者 受 性 能 低下 节点 的 影响 ， 从 而 可 以 检查 某 些 
推荐 的 配置 是 否 生效 等 。 

通过 EXPLAIN_LEVEL 也 可 以 控制 通过 PROFILE 输出 的 执行 计划 的 详细 程度 。 

如 下 示例 展示 了 在 一 个 伪 分 布 式 集群 中 PROFILE 的 输出 信息 : 


第 9 章 Impala 性 能 优化 


F 源 大 数据 分 析 引 擎 Impala 实战 


第 9 章 Impala 性 能 优化 


F 源 大 数据 分 析 引 人 Impala 实战 】 


【 第 9 章 Impala 性 能 优化 


开源 大 数据 分 析 引 擎 Impala 实战 ) 


【 第 9 章 Impala 性 能 优化 


F 源 大 数据 分 析 引 擎 Impala 实战 】 


第 9 章 Impala 性 能 优化 


第 10 章 
<1Impala 设 计 原 则 与 应 用 又 例 > 


根据 之 前 章节 的 学 习 ， 我 们 发 现 Impala 是 一 个 基于 SQL， 以 HDFS 为 存储 ， 大 规模 MPP 运算 
引擎 。 那 么 如 何 将 Impala 应 用 到 企业 环境 中 呢 我 们 将 在 本 章 第 1 节 中 说 明了 使 用 Impala 需要 遵 
循 的 设计 原则 ， 在 第 2 节 中 通过 实际 案例 来 解释 这 些 设计 原则 。 


设计 原则 
1. 硬件 规划 
如 果 对 一 个 已 有 的 CDH 集群 使 用 Impala 技术 ， 在 硬件 层面 上 我 们 最 需要 关注 的 点 就 是 ， 我 
们 需要 Impala 处 理 的 最 大 的 表 或 者 分 区 容量 。 因 为 Impala 要 将 数据 全 部 读 入 内 存 才 进行 运 各 ， 


我 们 必须 要 保证 内 存 能 够 装载 下 所 需要 的 表 或 者 分 区 的 数据 。 一 般 情况 下 ， 由 于 原 有 的 集群 是 以 
基于 磁盘 的 操作 为 主 ， 需 要 为 各 数据 节点 添加 足够 的 内 存 。 


2. 模型 设计 
在 传统 的 应 用 开发 流程 中 ， 我 们 需要 对 数据 库 进 行 物理 设计 ， 这 里 的 模型 设计 与 传统 的 物理 
设计 类 似 。 当 然 ， 具 体 需要 设计 成 什么 样 ， 完 全 取决 于 具体 的 应 用 场景 。 


@ 存储 方式 : 未 来 的 Impala 表 使 用 什么 类 型 的 数据 文件 存储 ? 数据 量 如 果 较 小 ， 可 以 使 用 
数据 文件 的 原 有 格式 。 如 果 数 据 量 非常 庞大 ,而且 对 数据 的 查询 是 基于 少量 列 进行 的 ， 则 
强烈 建议 使 用 Parquet 方 式 存储 。 

e 分 区 方式 : 针对 Impala 表 进 行 的 频 度 最 高 的 查询 依据 什么 条 件 ? 条 件 列 的 区 分 度 如 何 ? 
如 果 按 条 件 列 来 进行 分 区 , 单个 分 区 的 数据 量 有 多 大 ? 是否 需要 使 用 几 个 列 的 组 合 来 进行 
分 区 ? 选择 合适 的 分 区 ， 能 够 大 大 提升 查询 的 效率 。 

® 内 部 表 久 外 部 表 : 使 用 外 部 表 ， 不 需要 数据 复制 的 过 程 ， 但 不 能 改变 存储 的 数据 文件 的 格 
式 。 使 用 内 部 表 ， 在 各 方面 的 控制 上 更 为 灵活 ， 但 是 需要 将 外 部 的 数据 复制 到 Impala 内 
部 的 处 理 过 程 。 

@ 资源 控制 :Hadoop 的 其 他 类 型 的 作业 是 否 会 与 Impala 的 查询 并 行 执行 ? 使 用 YARN 来 管 
理 Impala 的 资源 控制 ， 还 是 Impala 使 用 自身 的 机 制 进 行 管理 ? 


第 10 章 Impala 设计 原则 与 应 用 案例 


3. 数据 加 载 


如 果 是 现 有 的 HDFS 上 已 经 有 了 相应 的 数据 文件 ， 本 步骤 可 以 忽略 。 
如 果 现 有 的 Hadoop 集群 是 新 建 的 ， 仅 供 Impala 来 使 用 ， 那 可 能 就 需要 从 外 部 数据 源 加 载 数 
据 了 。 


@ 文件 加 载 : 如 果 外 部 数据 源 有 现成 的 Impala 支持 的 数据 文件 ， 可 以 通过 HDFS 文件 系统 
的 命令 ， 或 者 基于 WebHDFS 和 HttpFS 的 API 来 编写 代码 实现 。 

e 结构 化 数据 加 载 : 如 果 我 们 需要 把 传统 关系 型 数据 库 中 的 数据 加 载 到 HDFS 上 ， 可 以 通过 
Sqoop 来 完成 。 我 们 可 以 使 用 Sqoop 将 关系 型 数据 库 中 全 量 ， 或 者 增 量 的 数据 (依据 一 定 
的 条 件 ) 加 载 到 HDFS 上 。Sqoop 配置 好 之 后 ， 它 会 以 MapReduce 的 方式 将 数据 加 载 到 
HDFS 上 。 事实 上 ，Sqoop 并 不 支持 所 有 Impala 支持 的 文件 格式 ， 如 果 我 们 需要 的 数据 文 
件 格 式 Sqoop 不 支持 ， 我 们 还 需要 进行 二 次 转换 。 

@ 基于 事件 的 数据 加 载 : 对 于 源 端 的 数据 变化 必须 很 快 反映 到 目标 数据 中 的 情况 , 我 们 可 以 
考虑 使 用 Flume 来 实现 。Flume 具备 从 控制 台 、RPC、text、tail、syslog、exec 等 数据 源 
搜集 数据 的 能 力 。 而 且 Flume 还 提供 了 数据 收集 和 传输 的 高 可 用 性 。 

4. 数据 处 理 

利用 Impala 提供 的 强大 的 SQL 功能 ， 根 据 应 用 不 同 的 需求 对 数据 进行 查询 处 理 。 

5. 

处 理 完 成 的 数据 ， 我 们 可 以 通过 JDBC 接口 来 调用 ， 比 如 ， 可 以 给 BI 工具 做 报表 展现 使 用 。 

另外 ， 我 们 也 可 以 将 处 理 结果 返回 到 传统 的 关系 型 数据 库 供用 户 使 用 。 


1 口 .2 应 用 案例 


1. 硬件 规划 


某 保险 公司 原 有 CDH4.6 集群 有 数据 节点 35 个 ， 数 据 节 点 2*8Core CPU， 内 存 32GB， 硬 盘 
2*2TB。 经 调查 ， 最 大 单 表 的 数据 量 为 3TB 左右 。 那 么 平均 每 个 节点 的 内 存量 应 该 为 : 


3TB/35=86GB 

考虑 到 可 扩展 及 其 他 因素 ， 增 加 每 个 节点 的 内 存 到 96GB， 相 当 于 每 个 节点 再 加 10GB。 
2. 模型 设计 

模型 设计 使 用 下 面 方式 : 

。 存储 方式 : 使 用 Parquet 文 件 存储 。 
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e 分 区 方式 : 表 依据 最 常用 的 ACTYR、GEOST、ALINE、COMPNY 字段 分 区 。 

@ 内 部 表 & 外 部 表 : 原 有 数据 使 用 CSV 方式 存储 ， 需 要 使 用 Impala 内 部 表 。 

日 资源 控制 : 将 Impala 即席 查询 任务 与 Hadoop 其 他 批 处 理 任务 错 恬 执行 ， 使 用 Impala 自 
身 的 资源 控制 机 制 。 


3. 数据 加 载 


原 有 CSV 文件 已 经 存储 在 HDFS 上 ， 使 用 LOAD DATA 先 将 数据 加 载 到 Impala 外 部 表 ， 再 
通过 外 部 表 将 数据 复制 到 基于 Parquet 的 Impala 内 部 表 ， 完 成 数据 转换 。 
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4. 数据 处 理 
完成 按照 不 同 维度 对 数据 进行 实时 统计 分 析 。 
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从 上 面 最 后 一 行 可 以 看 出 来 , 经 过 了 良好 的 模式 设计 ， 对 整个 表 的 count 时 间 只 需要 1.94s。 
再 看 下 面 的 查询 示例 : 
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从 上 面 最 后 一 行 可 以 看 出 来 , 按照 地 理 位 置 进行 年 份 的 分 组 统计 ， 查 询 时 间 需 要 8.69s。 再 看 
下 面 的 查询 示例 : 


Ff 源 大 数据 分 析 引 擎 Impala 实战 】 


从 上 面 最 后 一 行 可 以 看 出 来 ， 针 对 特定 年 份 的 对 地 理 位 置 的 分 组 统计 仅 需 要 1.77s。 
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将 查询 到 的 结果 通过 Tableau 进行 报表 展示 。 
如 数据 处 理 中 的 三 个 场景 ， 如 果 直 接 用 Hive 处 理 ， 或 者 不 经 过 模式 设计 ， 只 简单 地 将 数据 加 
载 到 Impala 中 查询 ， 与 严格 按照 规划 步骤 设计 后 处 理 的 查询 结果 都 相去 其 远 ， 对 比 图 如 下 : 


Query Time in MM:SS 
934 


231 
223 


ooz 009 O02 
Row Count Count of Geo Areas by Vear Count of Geo keeasfora Single year 


Hve mimpa limpal with Parmrionng & parquet 


通过 上 图 可 以 看 到 ,单单 从 Hive 到 Impala, 不 做 任何 其 他 改变 , 查询 速度 平均 提升 了 三 分 之 
二 以 上 ， 如 果 经 过 良好 的 模式 设计 ， 执 行 速度 有 数量 级 的 提升 。 从 这 一 个 侧面 也 足以 证 明 Impala 
查询 能 力 的 优秀 。 
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